Pull request 與其自爽不如貢獻開源
前言
只要是軟體工程師這個領域內的職業都一定需要經營自己的side project
side project等於自己的職涯作品集,應徵時絕對會需要拿出來展示的項目
以前寫過一篇關於生物資訊工程師要經營side project可以往哪些方向
其中一個方向就是Pull request
共 17 篇文章
只要是軟體工程師這個領域內的職業都一定需要經營自己的side project
side project等於自己的職涯作品集,應徵時絕對會需要拿出來展示的項目
以前寫過一篇關於生物資訊工程師要經營side project可以往哪些方向
其中一個方向就是Pull request
這篇文章是爲了自己要學習幾個Nextflow的重要功能而寫的
並寫一個程式實踐這些功能
Nextflow的基本概念會跳過不講
可以參考我之前寫的文章快速了解或是看官方文件
看這篇你能夠瞭解到以下的功能
情境說明,自己玩的專案中需要建立NT資料庫
並且需要經過資料清洗,像是將資料庫分成human和non human的fasta
並將無taxon分類的sequences排除
可怕的是目前的NT的序列數已達到9400萬條
策略是先遊歷一遍整個檔案
並記錄每個sequence的taxid及file offset (f.tell()
)儲存到dictionary
透過記錄的offset,使用f.seek()
快速到達指定的sequence位置,並依據taxid判斷是屬於human或non human的sequence分別寫入到兩個fasta
因此本篇測試有哪些key-value類型的資料結構可以快速索引fasta中seqid於檔案中位置
且符合時間成本、硬體資源等效益
最近的一個新聞報導臺灣人常吃的蛤蜊原來是全新的物種
以前都一直以爲是1920年代引進到台灣的麗文蛤,經過水試所研究人員研究發現是不同於該物種的全新種
Makura的功能介紹可以看上一篇
{% post_link ‘2022/Makura安裝與使用 - 批量下載NCBI genomes’ %}
pip install makura==1.2.0
這篇介紹1.0.0到1.2.0之間增加的功能和修復的bug
研究雞的腸道菌相除了要做基礎研究外,大多是為了提升生長和生產表現以及減少對抗生素依賴
來看看近幾年的相關研究的菌相分析方法以及分析流程會使用到哪些工具
目的是要一次大量下載NCBI的assembly genome
Q:這種需求什麼時候會用上呢?
A: 生物資訊分析genomics或metageomics資料常會需要下載指定物種或是所有屬於微生物的genomes
workflow framework要學嗎?
其實也不一定要,自己用python之類的自刻一套完整有邏輯的workflow framework(之後簡稱WF)也行
只是想說104上面一堆公司都在那邊最好要會Nextflow
就來學學吧,大家統一都用一樣的WF也好
網路上的教學文章超級少
而且大多都在那邊抄官網的教學翻成中文而已= =
完全沒有一個可以當做友善快速入門的,一堆農場文章
最後我的學習資源還是來自官網說明文件和官方發佈在yt的教學影片
(但都覺得寫的不是很符合需求= =)
如果要做對應徵生物資訊職缺有幫助的 side project
我認為有幾個方向可以考慮
台灣目前(2022)最多的工作機會是基因體定序與分析,在 104 上隨時都可以看到,
應用領域其實就是精準醫療跟微生物研究。
至於商業市場沒這麼大的醫療影像、生物統計、質譜分析、抗體設計等工作機會就是可遇不可求了