Makura v1.2.0 更新說明


Makura的功能介紹可以看上一篇

Makura安裝與使用 - 批量下載NCBI genomes
pip install makura==1.2.0

這篇介紹1.0.0到1.2.0之間增加的功能和修復的bug

Features

  1. 資料庫更新不需指定refseq或genbank
    預設改成all,同時下載refseq和genbank的assembly summary
    當然如果只想下載其中一個也可以
makura update -s all
  1. 檢索方法改成使用sqlite以提升搜尋效能
    原本是直接下載assembly summmary.txt,使用pandas讀取整份tab檔再filter
    改成將表格轉換到sqlite中,使用sql語法搜尋目標genomes
makura summary --taxids 1280 -s refseq -c reference
  1. summary指令可輸出tab或是jsonlines
    原來輸出格式是json,考量到可讀性更改成tab或是可選擇輸出成jsonlines
    jsonlines是將每筆row轉換成json格式
    預設輸出爲tab

    makura summary --taxids 1280 --as-json-lines
  2. 以RESTful API取得assembly summary
    此爲試驗性功能,目前只能使用assembly accession取得summary

    makura api --port 5000
    curl http://localhost:5000/summary?accessions=GCA_002287175.1,GCA_000762265.1 
  3. download指令加上--debug參數輸出下載記錄
    輸出檔名爲download_status.txt,共有2個欄位
    第一欄是ftp url,第二欄是returncode
    共有3種:
    1: genome fasta已存在
    2: 下載成功
    3: 下載失敗

Bugs

  1. 修復無法以assembly accession取得summary和download genome

Author: Hung-Lin, Chen
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source Hung-Lin, Chen !
  TOC