生物資訊的side project
如果要做對應徵生物資訊職缺有幫助的 side project
我認為有幾個方向可以考慮
歡迎來到我的部落格!這裡記錄了我在生物資訊和日常生活中的思考與體驗。
希望這些內容對你有所幫助,也歡迎與我交流討論!
只要是軟體工程師這個領域內的職業都一定需要經營自己的side project
side project等於自己的職涯作品集,應徵時絕對會需要拿出來展示的項目
以前寫過一篇關於生物資訊工程師要經營side project可以往哪些方向
其中一個方向就是Pull request
這篇文章是爲了自己要學習幾個Nextflow的重要功能而寫的
並寫一個程式實踐這些功能
Nextflow的基本概念會跳過不講
可以參考我之前寫的文章快速了解或是看官方文件
看這篇你能夠瞭解到以下的功能
情境說明,自己玩的專案中需要建立NT資料庫
並且需要經過資料清洗,像是將資料庫分成human和non human的fasta
並將無taxon分類的sequences排除
可怕的是目前的NT的序列數已達到9400萬條
策略是先遊歷一遍整個檔案
並記錄每個sequence的taxid及file offset (f.tell()
)儲存到dictionary
透過記錄的offset,使用f.seek()
快速到達指定的sequence位置,並依據taxid判斷是屬於human或non human的sequence分別寫入到兩個fasta
因此本篇測試有哪些key-value類型的資料結構可以快速索引fasta中seqid於檔案中位置
且符合時間成本、硬體資源等效益
這篇是成功案例,但每次更換電子零件都是場賭注
如果更換完按下開機鍵有不如預期的狀況真的很想死
先講結論,調整記憶體電壓就成功了,但要發現是電壓問題…
最近的一個新聞報導臺灣人常吃的蛤蜊原來是全新的物種
以前都一直以爲是1920年代引進到台灣的麗文蛤,經過水試所研究人員研究發現是不同於該物種的全新種