7月9日消息,女媧浙江大學郭國驥教授團隊在《細胞》雜志發(fā)表重要成果。浙大組密
他們開發(fā)多任務深度學習模型女媧CE(NvwaCE),推出實現(xiàn)從基因組序列到單細胞水平調(diào)控序列圖譜的模型碼全直接預測,在基因組AI領域取得重大突破。破解
基因組由DNA構成,基因包含編碼蛋白質(zhì)的球領序列及大量調(diào)控序列,二者共同決定生物體的女媧復雜特征。自2003年人類基因組計劃繪制出基因圖譜后,浙大組密對其中遺傳信息的推出破譯卻不足10%。
AI的模型碼全出現(xiàn)為解讀基因序列提供了新途徑,但基因組AI模型受數(shù)據(jù)質(zhì)量制約。破解
郭國驥團隊基于自主研發(fā)的基因超高通量超靈敏單核ATAC測序技術(UUATAC-seq),為基因組AI模型訓練打造了高質(zhì)量“教材”。球領
通過學習UUATAC-seq產(chǎn)生的女媧高質(zhì)量數(shù)據(jù),該模型掌握了脊椎動物調(diào)控序列編碼規(guī)則,可基于一維DNA序列預測單細胞中的染色質(zhì)可及性水平,且具備高泛化能力,能預測未經(jīng)訓練物種的染色質(zhì)可及性圖譜,其對人類調(diào)控元件可及性的預測與實驗測量相關性良好。
在實際應用中,“女媧CE”表現(xiàn)出色,超越現(xiàn)有基因組AI模型,可精準預測合成突變對譜系特異性調(diào)控序列功能的影響,還能結(jié)合疾病表型設計治療位點。
團隊通過基因編輯實驗,驗證了“女媧CE”預測的鐮刀型貧血癥治療性基因位點HBG1-68:A>G,經(jīng)基因治療后胎兒血紅蛋白表達量顯著提升,這是世界首例由人工智能設計的人類疾病治療位點。
相比國外同類模型,“女媧CE”基于高質(zhì)量單細胞圖譜數(shù)據(jù),對幾乎所有細胞類型實現(xiàn)了AUROC>0.90的預測準確率。
未來,“女媧CE”將在生命科學、醫(yī)學和農(nóng)學等領域發(fā)揮重要作用,助力全面解讀基因組語言、建立數(shù)字生命模型。
本文來源:http://www.iv82.cn/news/67f36099572.html
版權聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內(nèi)容,請發(fā)送郵件舉報,一經(jīng)查實,本站將立刻刪除。