AlphaFold對手來了：Meta預(yù)測6億“暗物質(zhì)”蛋白，僅用2周完成

更新時(shí)間：2022-11-02 18:06:44作者：智慧百科

Alex 發(fā)自凹非寺
量子位 | 公眾號 QbitAI

預(yù)測蛋白質(zhì)結(jié)構(gòu)的AI超級新星AlphaFold，現(xiàn)在遇到了強(qiáng)勁對手。

Meta的蛋白質(zhì)預(yù)測大模型ESMFold，剛剛公布了其最新成果：

6億多種蛋白結(jié)構(gòu)預(yù)測結(jié)果，而且還是“蛋白質(zhì)中的暗物質(zhì)”——宏基因組蛋白（Metagenomic Proteins）。

宏基因組蛋白，簡單來說就是特定時(shí)刻下，環(huán)境微生物表達(dá)的所有蛋白。

它們來自細(xì)菌、病毒和其他尚未確定特征的微生物，數(shù)量非常龐大。

研究它們不僅有助于發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu)，還能幫科學(xué)家預(yù)測并尋到更多微生物，比如RNA病毒等。

要知道，此前AlphaFold背后的公司DeepMind，公布了約2.2億種蛋白質(zhì)預(yù)測結(jié)構(gòu)，幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物體的所有蛋白質(zhì)。

也就是說，ESMFold現(xiàn)在預(yù)測出來的結(jié)構(gòu)數(shù)量，相當(dāng)于AlphaFold的3倍左右。

Meta的研究團(tuán)隊(duì)還據(jù)此成果提出了一個(gè)關(guān)于元基因組數(shù)據(jù)庫：ESM Metagenomic Atlas，這也是全球首個(gè)大規(guī)模的元基因組蛋白質(zhì)結(jié)構(gòu)集合。

這些消息一出，很快便收獲了一波關(guān)注和驚嘆聲，Nature還為此發(fā)了篇專門的報(bào)道。

有意思的是，雖然AlphaFold更早問世，但LeCun曾指出這個(gè)思路是他們先提出的：

早在2019年，ESMFold背后的FAIR團(tuán)隊(duì)就先提出了使用預(yù)訓(xùn)練、基于Transformer的語言模型構(gòu)想，后來該想法被AlphaFold團(tuán)隊(duì)采納。

除了預(yù)測的數(shù)量多外，ESMFold還有個(gè)明顯優(yōu)勢：速度快。

2周預(yù)測出6.17億個(gè)蛋白質(zhì)結(jié)構(gòu)

Meta團(tuán)隊(duì)的研究人員表示，用ESMFold預(yù)測超過6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu)，只花了2周時(shí)間。

另外，在單個(gè)英偉達(dá)V100 GPU上，ESMFold可以在14.2秒內(nèi)對含有384個(gè)殘基的蛋白質(zhì)進(jìn)行預(yù)測，比AlphaFold2快6倍。

而對于較短的序列，它甚至比AlphaFold2快了60倍。

如此神速的背后，一個(gè)至關(guān)重要的因素就是：ESMFold的輸入基于Transformer語言模型。

看到這點(diǎn)，你或許會疑惑：預(yù)測蛋白質(zhì)結(jié)構(gòu)的模型，和語言模型有什么關(guān)系？

一方面，從數(shù)據(jù)層面來看，語言和蛋白質(zhì)結(jié)構(gòu)都具有離散性。

通俗來說，一個(gè)合成結(jié)構(gòu)可以拆成單個(gè)成分，就像一段話能拆分出單個(gè)字詞、一個(gè)蛋白質(zhì)能拆分出單個(gè)氨基酸；且兩個(gè)單位之間不存在量的連續(xù)性遞增或遞減關(guān)系。

另一方面，上下文和語境制約著某個(gè)單詞的含義；相似地，蛋白質(zhì)的結(jié)構(gòu)和功能制約著序列突變方向。

所以，Meta AI受到語言模型啟發(fā)，提出了ESMFold的基本構(gòu)想。

基于語言模型的開發(fā)出來的ESMFold，主體結(jié)構(gòu)其實(shí)和AlphaFold2有不少相似之處——

它也能拆分為四部分：數(shù)據(jù)解析、編碼器、解碼器，以及循環(huán)部分。

其中，數(shù)據(jù)解析部分用于輸入序列和數(shù)據(jù)庫的解析，為編碼器提供輸入。

△ESMFold模型結(jié)構(gòu)示意圖

巴特！比起AlphaFold 2，ESMFold用于推理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)被簡化了：

ESMFold消除了對明確同源序列（以MSA形式）輸入的需求，并且也不用進(jìn)行Jax圖編譯，所以可以省下了不少時(shí)間。

這樣不僅可以大幅縮短大型基因組序列數(shù)據(jù)庫的構(gòu)建時(shí)長；而且能在相同時(shí)間內(nèi)預(yù)測出更多結(jié)構(gòu)。

150億的參數(shù)量

除了基于語言模型，還有一點(diǎn)也不容忽視：ESMFold的參數(shù)量巨大。

在今年早些時(shí)候，Meta AI團(tuán)隊(duì)宣布ESMFold模型更新了：

ESM2的參數(shù)量直接飆升到150億，一躍成為迄今為止最大的蛋白質(zhì)語言模型。（AlphaFold2的參數(shù)量為9300萬左右）

一般來說，模型的參數(shù)量越大，意味它其能運(yùn)用的函數(shù)越多，進(jìn)而使其學(xué)習(xí)的準(zhǔn)確率和精度大大提升。

這一點(diǎn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測AI上也得到了印證：

ESMFold模型的參數(shù)量達(dá)150億之后，其分辨率更高了，能達(dá)到原子級別。

其中，對于單序列輸入，ESMFold的精度優(yōu)于AlphaFold2——

通過這個(gè)150億參數(shù)的ESM2，ESMFold只用一個(gè)序列作為輸入，就能有效預(yù)測端到端的3D結(jié)構(gòu)；而AlphaFold2則需要多序列輸入才能有良好表現(xiàn)。

△單序列輸入時(shí)，ESMFold預(yù)測精度更高

不過在多序列輸入的情況下，ESMFold的精度和AlphaFold2相比，還是略有差距。

此外，在蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性方面，ESMFold和AlphaFold2的表現(xiàn)不相上下。

不過需要說明的一點(diǎn)是，Meta的研究人員也表示，這6億多個(gè)預(yù)測出來的蛋白質(zhì)結(jié)構(gòu)目前還沒有被定性，還需后續(xù)的核驗(yàn)、分類等。

話說這些年，蛋白質(zhì)預(yù)測模型以及其背后的計(jì)算生物學(xué)可謂方興未艾，“AI For Science”正在發(fā)生。

先前科學(xué)家們經(jīng)過幾十年的努力，只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基；而AlphaFold在2018年才官宣，至今已經(jīng)預(yù)測出了人類98.5%的蛋白質(zhì)結(jié)構(gòu)。

至于ESMFold，該研究團(tuán)隊(duì)的領(lǐng)導(dǎo)者Alexander Rives指出：

對于蛋白質(zhì)結(jié)構(gòu)解析和探索未知蛋白質(zhì)結(jié)構(gòu)，ESMFold都算科學(xué)家們的得力助手。

目前ESM2模型的部分代碼已在GitHub上免費(fèi)開源，感興趣的伙伴們可以去看看！

代碼傳送門：
https://github.com/facebookresearch/esm
模型傳送門：
https://esmatlas.com

本文標(biāo)簽：蛋白暗物質(zhì) 蛋白質(zhì) 序列 meta

上一篇：雙11大促在即，TikTok電商在印尼上線官方商城，意味著什么？

下一篇：打不過就加入？奧迪將采購比亞迪混動系統(tǒng)：第一款車型為A4L

中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕