2023成都積分入學(xué)什么時(shí)候開始申請
2023-01-31
更新時(shí)間:2022-08-15 16:05:17作者:佚名
新智元報(bào)道
編輯:好困
【新智元導(dǎo)讀】這個(gè)模型只用了64個(gè)例子,就在自然問題上達(dá)到了42%的準(zhǔn)確率,并且超過了5400億參數(shù)的PaLM。
最近,Meta推出了一個(gè)全新的檢索增強(qiáng)的語言模型——Atlas。
和那些動(dòng)輒上千億參數(shù)的前輩們不同,Atlas只有110億的參數(shù)。
不過值得注意的是,Atlas雖然只有PaLM的1/50,但它只用了64個(gè)例子就在NaturalQuestions達(dá)到了42%以上的準(zhǔn)確率,比PaLM這個(gè)5400億參數(shù)的模型還高出了3%。
論文鏈接:https://arxiv.org/abs/2208.03299
檢索增強(qiáng)模型
眾所周知,世界知識(shí)對于自然語言處理來說是一個(gè)特別棘手的挑戰(zhàn),模型不僅需要理解任務(wù)的要求和如何產(chǎn)生輸出,還必須存儲(chǔ)和精確回憶大量的信息。
雖然在不需要世界知識(shí)的時(shí)候,小模型可以通過few-shot學(xué)習(xí)完成任務(wù),但到目前為止,只有超大體量的模型在知識(shí)密集型的任務(wù)(如問題回答和事實(shí)核查)中顯示出良好的效果。
而Atlas作為一個(gè)檢索增強(qiáng)型的模型,往往可以超越上述限制。
結(jié)果表明,Atlas在few-shot問題回答(NaturalQuestions和TriviaQA)和事實(shí)核查(FEVER)上的表現(xiàn)優(yōu)于更大的非增強(qiáng)模型,分別是超出了2.8%,3.3%和5.1%。
并且,Atlas在各種真實(shí)世界的測試(MMLU)上能與具有15倍以上參數(shù)的模型相當(dāng)或更強(qiáng)。
此外,Atlas在全數(shù)據(jù)集設(shè)置中也刷新了SOTA。在NaturalQuestions上把準(zhǔn)確率提高了8.1%,在TriviaQA上提高了9.3%,在5個(gè)KILT任務(wù)上也是如此。
更重要的是,Atlas檢索到的段落可以被直接查驗(yàn),從而獲得更好的可解釋性。此外還可以通過編輯甚至完全替換Atlas用于檢索的語料庫的方式,來保持模型一直都是最新的,無需重新訓(xùn)練。
LeCun表示,Atlas能夠在問題回答和事實(shí)核查方面擊敗更大的模型,正是因?yàn)樗梢詮恼Z料庫中檢索事實(shí)。
架構(gòu)
Atlas遵循文本到文本的框架,也就是說,系統(tǒng)會(huì)得到一個(gè)文本查詢作為輸入,并生成一個(gè)文本輸出。
例如,在回答問題的情況下,查詢與問題相對應(yīng),模型需要生成答案。在分類任務(wù)中,查詢對應(yīng)于文本輸入,模型生成詞匯化的類別標(biāo)簽,即標(biāo)簽所對應(yīng)的詞。
Atlas基于兩個(gè)子模型:檢索器和語言模型。
當(dāng)執(zhí)行一項(xiàng)任務(wù)時(shí),模型首先用檢索器從大型文本語料庫中檢索出前k個(gè)相關(guān)文檔。然后,這些文檔和查詢一起被送入語言模型,再由語言模型生成輸出。檢索器和語言模型都是基于預(yù)訓(xùn)練的Transformer網(wǎng)絡(luò)。
檢索器模塊基于Contriever,一種基于連續(xù)密集嵌入的信息檢索技術(shù)。Contriever使用一個(gè)雙編碼器結(jié)構(gòu),其中查詢和文檔由一個(gè)變換器編碼器獨(dú)立嵌入。在最后一層的輸出上應(yīng)用平均池化,以獲得每個(gè)查詢或文檔的一個(gè)向量表示。然后,通過計(jì)算查詢和每個(gè)文檔的相應(yīng)嵌入之間的點(diǎn)積,得到查詢和每個(gè)文檔之間的相似度分?jǐn)?shù)。Contriever模型使用MoCo對比損失進(jìn)行預(yù)訓(xùn)練,并且只使用無監(jiān)督的數(shù)據(jù)。
密集檢索器的一個(gè)優(yōu)點(diǎn)是,查詢和文檔編碼器都可以在沒有文檔注釋的情況下,利用如梯度下降和蒸餾等技術(shù)進(jìn)行訓(xùn)練。
語言模型依靠序列到序列模型的Fusion-in-Decoder modi?cation,并在編碼器中獨(dú)立處理每個(gè)文檔。然后,將對應(yīng)于不同文檔的編碼器的輸出連接起來,并在解碼器中對這一單一序列進(jìn)行交叉注意。在語言模型中處理檢索到的文檔的另一種方法是將查詢和所有的文檔連接起來,并將這個(gè)長序列作為模型的輸入。
訓(xùn)練和評估
具體來說,作者使用Perplexity Distillation目標(biāo)函數(shù),以及掩碼語言建模作為前置任務(wù)。并使用維基百科和Common Crawl的混合數(shù)據(jù)對這些模型進(jìn)行預(yù)訓(xùn)練,用于訓(xùn)練數(shù)據(jù)和索引的內(nèi)容。
作者檢索了20個(gè)文檔,每2500步更新一次索引,并對前100個(gè)文檔進(jìn)行重新排名。并使用AdamW對模型進(jìn)行10,000次迭代的預(yù)訓(xùn)練,批大小為128。
MMLU的結(jié)果
作者將110億參數(shù)的Atlas與諸如GPT-3和Chinchilla這些SOTA進(jìn)行了比較。
結(jié)果顯示,Atlas在zero-shot中的表現(xiàn)明顯優(yōu)于隨機(jī)。結(jié)合去偏推理,Atlas的zero-shot得分甚至超過了5-shot的GPT-3(47.1% vs 43.9%)。
對于5-shot的設(shè)置,Atlas比GPT-3高出4%,同時(shí)使用的參數(shù)少了15倍,預(yù)訓(xùn)練計(jì)算量少了10倍。集合多任務(wù)訓(xùn)練之后,Atlas提高到56.6%,接近Gopher的5-shot性能(60.0%)。
最后,在全數(shù)據(jù)設(shè)置中,Atlas達(dá)到了65.6%的整體準(zhǔn)確率,接近SOTA的水平。有趣的是,在這種設(shè)置下,Atlas的表現(xiàn)明顯優(yōu)于GPT-3,而在5-shot的設(shè)置下,它們的表現(xiàn)相似。
FEVER的結(jié)果
在15-shot的設(shè)置中,Atlas的得分是56.2%,比Gopher高出5.1分。
在64-shot的設(shè)置中,作者從整個(gè)訓(xùn)練集中均勻地選出用于訓(xùn)練的實(shí)例。而由此產(chǎn)生的訓(xùn)練集中,正樣本是要多于負(fù)樣本的。不過,Atlas依然達(dá)到了64.3%的準(zhǔn)確率。
最后,作者在完整的訓(xùn)練集上對模型進(jìn)行了微調(diào),并取得了78%的準(zhǔn)確率,只比ProoFVer低了不到1.5%。
其中,ProoFVer的架構(gòu)采用的是一個(gè)用句子級注釋訓(xùn)練的檢索器,并提供與FEVER一起發(fā)布的維基百科語料庫,而Atlas則是從CCNet和陳舊(2021年12月)的維基百科中檢索。
于是,作者嘗試著也采用由FEVER維基百科語料庫組成的索引,果然Atlas刷新了SOTA,達(dá)到80.1%的水平。
結(jié)論
在本文中,作者介紹了Atlas,一個(gè)檢索增強(qiáng)的大型語言模型。
結(jié)果表明,通過聯(lián)合預(yù)訓(xùn)練檢索器模塊和語言模型,Atlas在廣泛的知識(shí)密集型任務(wù)上具有強(qiáng)大的few-shot學(xué)習(xí)能力,包括NaturalQuestions、TriviaQA、FEVER、8個(gè)KILT任務(wù)和57個(gè)MMLU任務(wù)。
例如,Atlas在對64個(gè)例子進(jìn)行訓(xùn)練時(shí),在NaturalQuestions上達(dá)到了42%以上的準(zhǔn)確率,在TriviaQA上達(dá)到了84.7%的準(zhǔn)確率,與PaLM這個(gè)5400億參數(shù)的模型相比,提高了近3個(gè)百分點(diǎn),后者需要50倍的預(yù)訓(xùn)練計(jì)算。
作者還就訓(xùn)練這種檢索增強(qiáng)模型時(shí),哪些因素是重要的提供了詳細(xì)的分析,并證明了Atlas的可更新性、可解釋性和可控制性能力。
最后,作者證明了Atlas在全數(shù)據(jù)集設(shè)置中也很出色,在NaturalQuestions、TriviaQA、FEVER和5個(gè)KILT任務(wù)中都刷新了SOTA。
參考資料:
https://arxiv.org/abs/2208.03299