中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. AlphaFold對手來了:Meta預(yù)測6億“暗物質(zhì)”蛋白,僅用2周完成

        更新時(shí)間:2022-11-02 18:06:44作者:智慧百科

        AlphaFold對手來了:Meta預(yù)測6億“暗物質(zhì)”蛋白,僅用2周完成

        Alex 發(fā)自 凹非寺
        量子位 | 公眾號 QbitAI

        預(yù)測蛋白質(zhì)結(jié)構(gòu)的AI超級新星AlphaFold,現(xiàn)在遇到了強(qiáng)勁對手。

        Meta的蛋白質(zhì)預(yù)測大模型ESMFold,剛剛公布了其最新成果:

        6億多種蛋白結(jié)構(gòu)預(yù)測結(jié)果,而且還是“蛋白質(zhì)中的暗物質(zhì)”——宏基因組蛋白(Metagenomic Proteins)。



        宏基因組蛋白,簡單來說就是特定時(shí)刻下,環(huán)境微生物表達(dá)的所有蛋白。

        它們來自細(xì)菌、病毒和其他尚未確定特征的微生物,數(shù)量非常龐大。

        研究它們不僅有助于發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu),還能幫科學(xué)家預(yù)測并尋到更多微生物,比如RNA病毒等。

        要知道,此前AlphaFold背后的公司DeepMind,公布了約2.2億種蛋白質(zhì)預(yù)測結(jié)構(gòu),幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物體的所有蛋白質(zhì)。

        也就是說,ESMFold現(xiàn)在預(yù)測出來的結(jié)構(gòu)數(shù)量,相當(dāng)于AlphaFold的3倍左右。

        Meta的研究團(tuán)隊(duì)還據(jù)此成果提出了一個(gè)關(guān)于元基因組數(shù)據(jù)庫:ESM Metagenomic Atlas,這也是全球首個(gè)大規(guī)模的元基因組蛋白質(zhì)結(jié)構(gòu)集合。



        這些消息一出,很快便收獲了一波關(guān)注和驚嘆聲,Nature還為此發(fā)了篇專門的報(bào)道。



        有意思的是,雖然AlphaFold更早問世,但LeCun曾指出這個(gè)思路是他們先提出的:

        早在2019年,ESMFold背后的FAIR團(tuán)隊(duì)就先提出了使用預(yù)訓(xùn)練、基于Transformer的語言模型構(gòu)想,后來該想法被AlphaFold團(tuán)隊(duì)采納。



        除了預(yù)測的數(shù)量多外,ESMFold還有個(gè)明顯優(yōu)勢:速度快。

        2周預(yù)測出6.17億個(gè)蛋白質(zhì)結(jié)構(gòu)

        Meta團(tuán)隊(duì)的研究人員表示,用ESMFold預(yù)測超過6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu),只花了2周時(shí)間。

        另外,在單個(gè)英偉達(dá)V100 GPU上,ESMFold可以在14.2秒內(nèi)對含有384個(gè)殘基的蛋白質(zhì)進(jìn)行預(yù)測,比AlphaFold2快6倍。

        而對于較短的序列,它甚至比AlphaFold2快了60倍。



        如此神速的背后,一個(gè)至關(guān)重要的因素就是:ESMFold的輸入基于Transformer語言模型。

        看到這點(diǎn),你或許會疑惑:預(yù)測蛋白質(zhì)結(jié)構(gòu)的模型,和語言模型有什么關(guān)系?

        一方面,從數(shù)據(jù)層面來看,語言和蛋白質(zhì)結(jié)構(gòu)都具有離散性。

        通俗來說,一個(gè)合成結(jié)構(gòu)可以拆成單個(gè)成分,就像一段話能拆分出單個(gè)字詞、一個(gè)蛋白質(zhì)能拆分出單個(gè)氨基酸;且兩個(gè)單位之間不存在量的連續(xù)性遞增或遞減關(guān)系。

        另一方面,上下文和語境制約著某個(gè)單詞的含義;相似地,蛋白質(zhì)的結(jié)構(gòu)和功能制約著序列突變方向。

        所以,Meta AI受到語言模型啟發(fā),提出了ESMFold的基本構(gòu)想。

        基于語言模型的開發(fā)出來的ESMFold,主體結(jié)構(gòu)其實(shí)和AlphaFold2有不少相似之處——

        它也能拆分為四部分:數(shù)據(jù)解析、編碼器、解碼器,以及循環(huán)部分。

        其中,數(shù)據(jù)解析部分用于輸入序列和數(shù)據(jù)庫的解析,為編碼器提供輸入。


        △ESMFold模型結(jié)構(gòu)示意圖

        巴特!比起AlphaFold 2,ESMFold用于推理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)被簡化了:

        ESMFold消除了對明確同源序列(以MSA形式)輸入的需求,并且也不用進(jìn)行Jax圖編譯,所以可以省下了不少時(shí)間。



        這樣不僅可以大幅縮短大型基因組序列數(shù)據(jù)庫的構(gòu)建時(shí)長;而且能在相同時(shí)間內(nèi)預(yù)測出更多結(jié)構(gòu)。

        150億的參數(shù)量

        除了基于語言模型,還有一點(diǎn)也不容忽視:ESMFold的參數(shù)量巨大。

        在今年早些時(shí)候,Meta AI團(tuán)隊(duì)宣布ESMFold模型更新了:

        ESM2的參數(shù)量直接飆升到150億,一躍成為迄今為止最大的蛋白質(zhì)語言模型。(AlphaFold2的參數(shù)量為9300萬左右)



        一般來說,模型的參數(shù)量越大,意味它其能運(yùn)用的函數(shù)越多,進(jìn)而使其學(xué)習(xí)的準(zhǔn)確率和精度大大提升。

        這一點(diǎn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測AI上也得到了印證:

        ESMFold模型的參數(shù)量達(dá)150億之后,其分辨率更高了,能達(dá)到原子級別。



        其中,對于單序列輸入,ESMFold的精度優(yōu)于AlphaFold2——

        通過這個(gè)150億參數(shù)的ESM2,ESMFold只用一個(gè)序列作為輸入,就能有效預(yù)測端到端的3D結(jié)構(gòu);而AlphaFold2則需要多序列輸入才能有良好表現(xiàn)。



        △單序列輸入時(shí),ESMFold預(yù)測精度更高

        不過在多序列輸入的情況下,ESMFold的精度和AlphaFold2相比,還是略有差距。

        此外,在蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性方面,ESMFold和AlphaFold2的表現(xiàn)不相上下。

        不過需要說明的一點(diǎn)是,Meta的研究人員也表示,這6億多個(gè)預(yù)測出來的蛋白質(zhì)結(jié)構(gòu)目前還沒有被定性,還需后續(xù)的核驗(yàn)、分類等。

        話說這些年,蛋白質(zhì)預(yù)測模型以及其背后的計(jì)算生物學(xué)可謂方興未艾,“AI For Science”正在發(fā)生。

        先前科學(xué)家們經(jīng)過幾十年的努力,只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基;而AlphaFold在2018年才官宣,至今已經(jīng)預(yù)測出了人類98.5%的蛋白質(zhì)結(jié)構(gòu)。

        至于ESMFold,該研究團(tuán)隊(duì)的領(lǐng)導(dǎo)者Alexander Rives指出:

        對于蛋白質(zhì)結(jié)構(gòu)解析和探索未知蛋白質(zhì)結(jié)構(gòu),ESMFold都算科學(xué)家們的得力助手。

        目前ESM2模型的部分代碼已在GitHub上免費(fèi)開源,感興趣的伙伴們可以去看看!

        代碼傳送門:
        https://github.com/facebookresearch/esm
        模型傳送門:
        https://esmatlas.com


        本文標(biāo)簽: 蛋白  暗物質(zhì)  蛋白質(zhì)  序列  meta