Bioinformatics

共 17 篇文章

Pull request 與其自爽不如貢獻開源

1 分鐘閱讀

前言

只要是軟體工程師這個領域內的職業都一定需要經營自己的side project
side project等於自己的職涯作品集,應徵時絕對會需要拿出來展示的項目
以前寫過一篇關於生物資訊工程師要經營side project可以往哪些方向
其中一個方向就是Pull request

NT FASTA近億等級數量索引

2 分鐘閱讀

情境說明,自己玩的專案中需要建立NT資料庫
並且需要經過資料清洗,像是將資料庫分成human和non human的fasta 並將無taxon分類的sequences排除
可怕的是目前的NT的序列數已達到9400萬條

策略是先遊歷一遍整個檔案 並記錄每個sequence的taxid及file offset (f.tell())儲存到dictionary

透過記錄的offset,使用f.seek()快速到達指定的sequence位置,並依據taxid判斷是屬於human或non human的sequence分別寫入到兩個fasta

因此本篇測試有哪些key-value類型的資料結構可以快速索引fasta中seqid於檔案中位置
且符合時間成本、硬體資源等效益

台灣文蛤是新種?怎樣算新種?

2 分鐘閱讀

前言

最近的一個新聞報導臺灣人常吃的蛤蜊原來是全新的物種
以前都一直以爲是1920年代引進到台灣的麗文蛤,經過水試所研究人員研究發現是不同於該物種的全新種

Makura v1.2.0 更新說明

1 分鐘閱讀

Makura的功能介紹可以看上一篇

{% post_link ‘2022/Makura安裝與使用 - 批量下載NCBI genomes’ %}

pip install makura==1.2.0

這篇介紹1.0.0到1.2.0之間增加的功能和修復的bug

Nextflow教學 - 以最小可行專案為例

4 分鐘閱讀

Introduction

workflow framework要學嗎?
其實也不一定要,自己用python之類的自刻一套完整有邏輯的workflow framework(之後簡稱WF)也行

只是想說104上面一堆公司都在那邊最好要會Nextflow
就來學學吧,大家統一都用一樣的WF也好

網路上的教學文章超級少
而且大多都在那邊抄官網的教學翻成中文而已= =
完全沒有一個可以當做友善快速入門的,一堆農場文章
最後我的學習資源還是來自官網說明文件和官方發佈在yt的教學影片
(但都覺得寫的不是很符合需求= =)

生物資訊工程師要有哪些經驗和技能

3 分鐘閱讀

台灣目前(2022)最多的工作機會是基因體定序與分析,在 104 上隨時都可以看到,
應用領域其實就是精準醫療跟微生物研究。

至於商業市場沒這麼大的醫療影像、生物統計、質譜分析、抗體設計等工作機會就是可遇不可求了