2023成都積分入學(xué)什么時(shí)候開始申請
2023-01-31
更新時(shí)間:2022-11-02 18:06:44作者:智慧百科
Alex 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
預(yù)測蛋白質(zhì)結(jié)構(gòu)的AI超級新星AlphaFold,現(xiàn)在遇到了強(qiáng)勁對手。
Meta的蛋白質(zhì)預(yù)測大模型ESMFold,剛剛公布了其最新成果:
6億多種蛋白結(jié)構(gòu)預(yù)測結(jié)果,而且還是“蛋白質(zhì)中的暗物質(zhì)”——宏基因組蛋白(Metagenomic Proteins)。
宏基因組蛋白,簡單來說就是特定時(shí)刻下,環(huán)境微生物表達(dá)的所有蛋白。
它們來自細(xì)菌、病毒和其他尚未確定特征的微生物,數(shù)量非常龐大。
研究它們不僅有助于發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu),還能幫科學(xué)家預(yù)測并尋到更多微生物,比如RNA病毒等。
要知道,此前AlphaFold背后的公司DeepMind,公布了約2.2億種蛋白質(zhì)預(yù)測結(jié)構(gòu),幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物體的所有蛋白質(zhì)。
也就是說,ESMFold現(xiàn)在預(yù)測出來的結(jié)構(gòu)數(shù)量,相當(dāng)于AlphaFold的3倍左右。
Meta的研究團(tuán)隊(duì)還據(jù)此成果提出了一個(gè)關(guān)于元基因組數(shù)據(jù)庫:ESM Metagenomic Atlas,這也是全球首個(gè)大規(guī)模的元基因組蛋白質(zhì)結(jié)構(gòu)集合。
這些消息一出,很快便收獲了一波關(guān)注和驚嘆聲,Nature還為此發(fā)了篇專門的報(bào)道。
有意思的是,雖然AlphaFold更早問世,但LeCun曾指出這個(gè)思路是他們先提出的:
早在2019年,ESMFold背后的FAIR團(tuán)隊(duì)就先提出了使用預(yù)訓(xùn)練、基于Transformer的語言模型構(gòu)想,后來該想法被AlphaFold團(tuán)隊(duì)采納。
除了預(yù)測的數(shù)量多外,ESMFold還有個(gè)明顯優(yōu)勢:速度快。
2周預(yù)測出6.17億個(gè)蛋白質(zhì)結(jié)構(gòu)
Meta團(tuán)隊(duì)的研究人員表示,用ESMFold預(yù)測超過6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu),只花了2周時(shí)間。
另外,在單個(gè)英偉達(dá)V100 GPU上,ESMFold可以在14.2秒內(nèi)對含有384個(gè)殘基的蛋白質(zhì)進(jìn)行預(yù)測,比AlphaFold2快6倍。
而對于較短的序列,它甚至比AlphaFold2快了60倍。
如此神速的背后,一個(gè)至關(guān)重要的因素就是:ESMFold的輸入基于Transformer語言模型。
看到這點(diǎn),你或許會疑惑:預(yù)測蛋白質(zhì)結(jié)構(gòu)的模型,和語言模型有什么關(guān)系?
一方面,從數(shù)據(jù)層面來看,語言和蛋白質(zhì)結(jié)構(gòu)都具有離散性。
通俗來說,一個(gè)合成結(jié)構(gòu)可以拆成單個(gè)成分,就像一段話能拆分出單個(gè)字詞、一個(gè)蛋白質(zhì)能拆分出單個(gè)氨基酸;且兩個(gè)單位之間不存在量的連續(xù)性遞增或遞減關(guān)系。
另一方面,上下文和語境制約著某個(gè)單詞的含義;相似地,蛋白質(zhì)的結(jié)構(gòu)和功能制約著序列突變方向。
所以,Meta AI受到語言模型啟發(fā),提出了ESMFold的基本構(gòu)想。
基于語言模型的開發(fā)出來的ESMFold,主體結(jié)構(gòu)其實(shí)和AlphaFold2有不少相似之處——
它也能拆分為四部分:數(shù)據(jù)解析、編碼器、解碼器,以及循環(huán)部分。
其中,數(shù)據(jù)解析部分用于輸入序列和數(shù)據(jù)庫的解析,為編碼器提供輸入。
△ESMFold模型結(jié)構(gòu)示意圖
巴特!比起AlphaFold 2,ESMFold用于推理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)被簡化了:
ESMFold消除了對明確同源序列(以MSA形式)輸入的需求,并且也不用進(jìn)行Jax圖編譯,所以可以省下了不少時(shí)間。
這樣不僅可以大幅縮短大型基因組序列數(shù)據(jù)庫的構(gòu)建時(shí)長;而且能在相同時(shí)間內(nèi)預(yù)測出更多結(jié)構(gòu)。
150億的參數(shù)量
除了基于語言模型,還有一點(diǎn)也不容忽視:ESMFold的參數(shù)量巨大。
在今年早些時(shí)候,Meta AI團(tuán)隊(duì)宣布ESMFold模型更新了:
ESM2的參數(shù)量直接飆升到150億,一躍成為迄今為止最大的蛋白質(zhì)語言模型。(AlphaFold2的參數(shù)量為9300萬左右)
一般來說,模型的參數(shù)量越大,意味它其能運(yùn)用的函數(shù)越多,進(jìn)而使其學(xué)習(xí)的準(zhǔn)確率和精度大大提升。
這一點(diǎn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測AI上也得到了印證:
ESMFold模型的參數(shù)量達(dá)150億之后,其分辨率更高了,能達(dá)到原子級別。
其中,對于單序列輸入,ESMFold的精度優(yōu)于AlphaFold2——
通過這個(gè)150億參數(shù)的ESM2,ESMFold只用一個(gè)序列作為輸入,就能有效預(yù)測端到端的3D結(jié)構(gòu);而AlphaFold2則需要多序列輸入才能有良好表現(xiàn)。
△單序列輸入時(shí),ESMFold預(yù)測精度更高
不過在多序列輸入的情況下,ESMFold的精度和AlphaFold2相比,還是略有差距。
此外,在蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性方面,ESMFold和AlphaFold2的表現(xiàn)不相上下。
不過需要說明的一點(diǎn)是,Meta的研究人員也表示,這6億多個(gè)預(yù)測出來的蛋白質(zhì)結(jié)構(gòu)目前還沒有被定性,還需后續(xù)的核驗(yàn)、分類等。
話說這些年,蛋白質(zhì)預(yù)測模型以及其背后的計(jì)算生物學(xué)可謂方興未艾,“AI For Science”正在發(fā)生。
先前科學(xué)家們經(jīng)過幾十年的努力,只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基;而AlphaFold在2018年才官宣,至今已經(jīng)預(yù)測出了人類98.5%的蛋白質(zhì)結(jié)構(gòu)。
至于ESMFold,該研究團(tuán)隊(duì)的領(lǐng)導(dǎo)者Alexander Rives指出:
對于蛋白質(zhì)結(jié)構(gòu)解析和探索未知蛋白質(zhì)結(jié)構(gòu),ESMFold都算科學(xué)家們的得力助手。
目前ESM2模型的部分代碼已在GitHub上免費(fèi)開源,感興趣的伙伴們可以去看看!
代碼傳送門:
https://github.com/facebookresearch/esm
模型傳送門:
https://esmatlas.com