索尼承諾將“增加PS5主機(jī)供應(yīng)”
2023-01-31
更新時(shí)間:2022-06-29 12:12:38作者:佚名
AI擊敗末影龍指日可待。
2019年,為了研究分析AI與兒童的智力差距,一群世界頂級(jí)科研人員在卡內(nèi)基梅隆大學(xué)和微軟的共同資助下舉辦了一場(chǎng)名為“MineRL”的比賽,以知名游戲《我的世界》為舞臺(tái),讓接受訓(xùn)練的AI在限定的時(shí)間內(nèi)尋找游戲中的稀有物品——鉆石。
考慮到一位普通兒童在觀看10分鐘的教學(xué)視頻后便能自主游玩《我的世界》,這項(xiàng)挑戰(zhàn)在外行來(lái)看似乎并不是很困難,但事實(shí)是,參賽的AI們?cè)陂L(zhǎng)達(dá)4天的限時(shí)挑戰(zhàn)里執(zhí)行了超過(guò)800萬(wàn)次操作之后,仍未能順利達(dá)成目標(biāo)。
在這之后,MineRL競(jìng)賽成了一年一度的科研項(xiàng)目,每年都會(huì)有不少探索AI前沿技術(shù)的學(xué)者帶著他們精心調(diào)教的AI來(lái)《我的世界》里挖鉆石。而去年的MineRL大賽更是吸引了海內(nèi)外近60支隊(duì)伍參賽,超過(guò)400名研究人員同臺(tái)競(jìng)技,其關(guān)注度可見(jiàn)一斑。
而到了最近,知名AI科技公司OpenAI終于實(shí)現(xiàn)了技術(shù)突破,提前殺死了比賽。根據(jù)他們于6月23日發(fā)布的論文來(lái)看,由他們訓(xùn)練的AI已經(jīng)做到了熟練游玩《我的世界》,挖鉆石對(duì)他們家的AI來(lái)說(shuō)早已不在話下,畢竟它目前已經(jīng)掌握了只有人類才能領(lǐng)悟的高階玩法:
為了讓AI真正做到像人類一樣“玩游戲”,OpenAI的研究人員引入了一種新穎且便捷的AI訓(xùn)練法:視頻預(yù)訓(xùn)練(Video PreTraining)。他們通過(guò)從相關(guān)合作方處獲取《我的世界》演示視頻以及與視頻配套的鍵盤(pán)鼠標(biāo)操作記錄,并根據(jù)這些操作習(xí)慣建立逆動(dòng)力學(xué)模型(inverse dynamics model)以推測(cè)模擬視頻內(nèi)的鍵鼠操作邏輯,此后再反復(fù)推演全世界的《我的世界》視頻以模擬人類的游玩習(xí)慣。
在“被迫”觀看了7萬(wàn)小時(shí)的視頻后,OpenAI旗下的AI的操作已經(jīng)相當(dāng)傳神:氧氣稀少時(shí)會(huì)主動(dòng)浮出水面、餓肚子了會(huì)啃腐肉充饑,而在研究人員的數(shù)據(jù)微調(diào)后,AI掌握了更加進(jìn)階的操作,包括搜刮隨機(jī)村莊里的寶箱,以及搭建一個(gè)簡(jiǎn)陋的“火柴盒”。
至于同行們費(fèi)盡心血鉆研的挖鉆石的方法,OpenAI也通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建了一套科學(xué)合理的計(jì)算機(jī)模型。從獲取木頭開(kāi)始,到在工作臺(tái)上做出一把鉆石鎬,總計(jì)需要24000次操作,對(duì)于較為熟練的老玩家來(lái)說(shuō),完成這套流程的時(shí)長(zhǎng)大概在20分鐘左右,而如今的AI在經(jīng)歷了大規(guī)模訓(xùn)練過(guò)后,收集鉆石的效率足以比肩人類。
目前,OpenAI已經(jīng)向MineRL大賽提交了他們研究的預(yù)訓(xùn)練模型,而今年參賽的科研隊(duì)伍也能在此模型的基礎(chǔ)上根據(jù)自己的主攻方向進(jìn)行微調(diào)??紤]到OpenAI優(yōu)秀的訓(xùn)練成果,想必今年的MineRL大賽會(huì)是一場(chǎng)堪比神仙打架的高端對(duì)局,說(shuō)不定不久之后,AI已經(jīng)開(kāi)始研究如何速通了。