Makura v1.2.0 更新說明

Makura的功能介紹可以看上一篇

{% post_link ‘2022/Makura安裝與使用 - 批量下載NCBI genomes’ %}

pip install makura==1.2.0

這篇介紹1.0.0到1.2.0之間增加的功能和修復的bug

Features

  1. 資料庫更新不需指定refseq或genbank
    預設改成all,同時下載refseq和genbank的assembly summary
    當然如果只想下載其中一個也可以

{% codeblock lang:bash %} makura update -s all {% endcodeblock %}

  1. 檢索方法改成使用sqlite以提升搜尋效能
    原本是直接下載assembly summmary.txt,使用pandas讀取整份tab檔再filter
    改成將表格轉換到sqlite中,使用sql語法搜尋目標genomes

{% codeblock lang:bash %} makura summary –taxids 1280 -s refseq -c reference {% endcodeblock %}

  1. summary指令可輸出tab或是jsonlines
    原來輸出格式是json,考量到可讀性更改成tab或是可選擇輸出成jsonlines jsonlines是將每筆row轉換成json格式
    預設輸出爲tab
makura summary --taxids 1280 --as-json-lines
  1. 以RESTful API取得assembly summary
    此爲試驗性功能,目前只能使用assembly accession取得summary
makura api --port 5000
curl http://localhost:5000/summary?accessions=GCA_002287175.1,GCA_000762265.1 
  1. download指令加上--debug參數輸出下載記錄
    輸出檔名爲download_status.txt,共有2個欄位
    第一欄是ftp url,第二欄是returncode
    共有3種:
    1: genome fasta已存在
    2: 下載成功
    3: 下載失敗

Bugs

  1. 修復無法以assembly accession取得summary和download genome