中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 不花錢,讓「情圣」ChatGPT教你怎么追馬斯克!

        更新時間:2022-12-12 16:07:04作者:智慧百科

        不花錢,讓「情圣」ChatGPT教你怎么追馬斯克!


        新智元報道

        編輯:編輯部

        【新智元導(dǎo)讀】如今爆火的ChatGPT,曾經(jīng)和馬斯克還有一段七年的「糾葛」。

        最近,OpenAI發(fā)布了史上最強聊天機器人ChatGPT,這個誕生于GPT-3基礎(chǔ)上的AI很快走紅網(wǎng)絡(luò)。

        要說這家伙,天南海北無所不知,可能是夸張了點,但就是無論什么話題都能跟你聊上一大套,先不說準不準,最起碼這個范兒是在這兒了


        有趣的是,雖然作為聯(lián)合創(chuàng)始人的馬斯克,早在2018年就辭去了董事會職務(wù),但他對OpenAI的關(guān)注度卻絲毫不減,并仍然是資助人之一。

        那么,對于這位「金主爸爸」,ChatGPT是怎樣看待的呢?

        ChatGPT教你怎么追馬斯克


        嗯……非常中規(guī)中矩的回答。不會出錯,好樣的。

        那讓咱們更進一步,請ChatGPT教教我們:怎么才能追到馬斯克呢?


        看來,ChatGPT不太能理解咱們中國話里的「追」,還是得說得直白一些。

        這次,ChatGPT能get到了,而且回答也非?!咐碇恰梗航ㄗh您不要嘗試。


        嗯,很中肯的意見。

        那再換一種說法呢,直接做老公行不行?


        好家伙,ChatGPT竟然還懂這呢!

        算了,放棄了,不如還是說說別的事吧。

        最近,馬院士把床和洗衣機都搬進了推特總部,誓要讓推特員工們以公司為家。

        不如充分發(fā)揮ChatGPT的長處,贊美一下996吧!


        寫得很好,但不要再寫了……

        不如……咱們讓ChatGPT來寫一首貶低自己的詩,如何?


        「他們說話不會抖,思考無需深沉……」小編承認,這的確是詩沒錯!

        OpenAI:七年了,你知道這七年我是怎么過的嗎?

        可以說,經(jīng)歷了這段時間的火爆,ChatGPT也再度燃起了人們對AI發(fā)展的信心和展望,不管是對AGI重燃信心的,還是認為AI將在更多領(lǐng)域取代人類的,都在ChatGPT身上重新看到了希望。

        作為一手打造ChatGPT的OpenAI,從GPT1到GPT3,一路都經(jīng)歷了哪些歷程呢?從2015年馬斯克牽頭成立,到2022年底ChatGPT的橫空出世,這7年OpenAI是怎么過來的?

        最近,Business Insider上的一篇回顧性文章帶我們簡單回顧了OpenAI的「這七年」。

        2015年,馬斯克和著名孵化器Y Combinator前總裁Sam Altman共同創(chuàng)立了OpenAI。


        馬斯克、奧特曼和其他知名的硅谷人物,包括彼得-蒂爾和LinkedIn聯(lián)合創(chuàng)始人里德-霍夫曼,在2015年向該項目認捐了10億美元。

        根據(jù)OpenAI網(wǎng)站2015年12月11日的一份聲明,該集團旨在創(chuàng)建一個非營利組織,「以最有可能使整個人類受益的方式」專注開發(fā)人工智能。

        當(dāng)時,馬斯克說,人工智能是對人類「最大的生存威脅」。


        當(dāng)時,馬斯克并不是唯一一個對人工智能的潛在危害性提出警告的人。

        2014年,著名物理學(xué)家斯蒂芬·霍金也曾警告說,人工智能可能會終結(jié)人類。

        「很難想象人類水平的人工智能會給社會帶來多大的好處,同樣也很難想象,如果對人工智能開發(fā)或使用不當(dāng),會給社會帶來多大的損害?!乖谛汲闪pen AI的聲明中這樣寫道。

        在接下來的一年里,OpenAI發(fā)布了兩款產(chǎn)品。

        2016年,OpenAI推出Gym,一個讓研究人員開發(fā)和比較強化學(xué)習(xí)AI系統(tǒng)的平臺。這些系統(tǒng)教人工智能來做出具有最佳累積回報的決定。

        同年晚些時候,OpenAI發(fā)布了Universe,這是一個用于訓(xùn)練跨網(wǎng)站和游戲平臺的智能代理的工具包。

        2018年,在共同創(chuàng)立該公司三年后,馬斯克辭去了在OpenAI董事會的職務(wù)。


        在2018年的一篇博文中,OpenAI表示,由于汽車制造商對人工智能的技術(shù)關(guān)注,馬斯克從董事會辭職是為了「消除未來的潛在沖突」。

        多年來,馬斯克一直向特斯拉的投資者力推電動汽車自動駕駛的開發(fā)計劃。

        不過馬斯克后來說,他之所以退出,是因為他當(dāng)時「不同意OpenAI團隊想做的一些事情」。


        2019年,馬斯克在Twitter上說,特斯拉也在爭奪與OpenAI相同的一些員工,并補充說他已經(jīng)有一年多沒有參與這家公司的事務(wù)了。

        他說:「如此看來,最好還是以彼此都滿意的條件分道揚鑣?!?/p>

        馬斯克近年來不斷對OpenAI的一些做法提出異議。


        2020年,馬斯克在推特上表示,說到安全問題,他對OpenAI高管的信心「不夠足」。


        在回應(yīng)MIT「科技評論」對OpenAI的調(diào)查報道時,馬斯克表示,OpenAI應(yīng)該更加開放。這一報道認為,OpenAI內(nèi)部存在一種「保密文化」,這和該組織聲稱的開放透明的策略背道而馳。

        最近,馬斯克說,他已經(jīng)暫停了OpenAI對Twitter數(shù)據(jù)庫的訪問權(quán)限,OpenAI一直使用Twitter的數(shù)據(jù)訓(xùn)練軟件。

        馬斯克表示,需要進一步了解OpenAI的治理結(jié)構(gòu)和未來的收入計劃。OpenAI是以開源和非營利為宗旨創(chuàng)辦的,這兩樣現(xiàn)在都丟掉了。

        2019年,OpenAI建立了一個人工智能工具,可以生成虛假的新聞報道。


        起初,OpenAI說這個機器人在寫假新聞方面非常出色,所以決定不發(fā)布它。不過當(dāng)年晚些時候,該公司發(fā)布了人這款工具的一個版本,稱為GPT-2。

        2020年,發(fā)布了另一個名為GPT-3的聊天機器人。同年,OpenAI撤下了「非營利組織」的身份。


        該公司在一篇博文中宣布,OpenAI已成為一家制定了「利潤上限」的公司。

        OpenAI表示,我們希望提高我們籌集資金的能力,同時仍然為我們的使命服務(wù),而我們所知道的任何現(xiàn)有的合法結(jié)構(gòu)都無法達到適當(dāng)?shù)钠胶?。我們的解決方案是創(chuàng)建OpenAI LP,作為營利性和非營利性的混合體,我們稱之為「加了上限的營利公司」。

        在新的利潤結(jié)構(gòu)下,OpenAI的投資者最多可以賺取其原始投資的100倍,超過這個數(shù)字的剩下的錢將用于非營利性事務(wù)。

        2019年底,OpenAI宣布與微軟合作,微軟向這家公司投資了10億美元。OpenAI表示,它將向微軟獨家授權(quán)技術(shù)。


        微軟表示,通過GPT-3模型打造出的商業(yè)和創(chuàng)造潛力是無限的,很多潛在的新能力和新應(yīng)用,甚至超出了我們的想象。

        比如在寫作和作曲上、在描述和總結(jié)大塊長篇數(shù)據(jù)(包括代碼)上、在將自然語言轉(zhuǎn)換為另一種語言等領(lǐng)域,GPT-3能夠直接激發(fā)人類的創(chuàng)造力和聰明才智,未來的局限可能在于我們自己的想法和方案。

        這種伙伴關(guān)系,讓微軟能夠與谷歌旗下同樣風(fēng)頭正勁的AI公司DeepMind競爭。

        去年,OpenAI發(fā)布了一個人工智能畫作生成工具:Dall-E。


        Dall-E是一個人工智能系統(tǒng),可以根據(jù)圖像的描述創(chuàng)造出逼真的圖像,甚至能夠達到相當(dāng)?shù)乃囆g(shù)水準,11月,OpenAI發(fā)布了該程序的更新版本,Dall-E 2。

        雖然OpenAI的聊天機器人在過去一周已經(jīng)「起飛」,但該軟件的更新版本可能最快會在明年才能發(fā)布。


        11月30日,作為演示模型發(fā)布的ChatGPT算得上是OpenAI的「GPT-3.5」。該公司計劃接下來發(fā)布完整版的GPT-4。

        與此同時,馬斯克還在發(fā)表評論:


        他在回復(fù)Sam Altman在談?wù)揅hatGPT的推文中稱,我們離強到危險的AI的誕生已經(jīng)不遠了。

        揭秘爆火ChatGPT后的功臣:RLHF

        而要說ChatGPT的爆火,離不開它背后的功臣——RLHF。

        OpenAI的研究人員,是使用與InstructGPT相同的方法——來自人類反饋的強化學(xué)習(xí)(RLHF)來訓(xùn)練ChatGPT模型的。


        ChatGPT用中文解釋什么是RLHF

        為什么會想到從人類反饋中強化學(xué)習(xí)呢?這就要從強化學(xué)習(xí)的背景說起。

        在過去幾年里,語言模型一直是通過人類輸入的提示生成文本的。

        然而,什么是「好」的文本呢?這很難定義。因為判斷標準很主觀,并且非常依賴于上下文。

        在許多應(yīng)用程序中,我們需要模型去編寫特定創(chuàng)意的故事、信息性文本片段,或可執(zhí)行的代碼段。

        而通過編寫一個損失函數(shù)來捕獲這些屬性,又顯得很棘手。并且,大多數(shù)語言模型仍然使用的是下一個標記預(yù)測損失(例如交叉熵)進行訓(xùn)練。

        為了彌補損失本身的缺點,有人定義了能夠更好地捕捉人類偏好的指標,比如BLEU或ROUGE。


        但即使是它們,也只是簡單地將生成的文本與引用進行比較,因此也有很大的局限性。

        在這種情況下,如果我們使用生成文本的人工反饋作為損失,來優(yōu)化模型,不是很好嗎?

        就這樣,從人類反饋中強化學(xué)習(xí)(RLHF)的想法誕生了——我們可以使用強化學(xué)習(xí),直接優(yōu)化帶有人類反饋的語言模型。


        ChatGPT用英文解釋什么是RLH

        是的,RLHF使語言模型能夠?qū)⒃谝话阄谋緮?shù)據(jù)語料庫上訓(xùn)練的模型,與具有復(fù)雜人類價值觀的模型對齊。

        在爆火的ChatGPT中,我們能看到RLHF取得的巨大成功。

        RLHF的訓(xùn)練過程,可以分解為三個核心步驟:

        1. 預(yù)訓(xùn)練語言模型(LM),

        2. 收集數(shù)據(jù)并訓(xùn)練獎勵模型,

        3. 通過強化學(xué)習(xí)微調(diào)LM。


        預(yù)訓(xùn)練語言模型

        第一步,RLHF會使用已經(jīng)用經(jīng)典預(yù)訓(xùn)練目標進行了預(yù)訓(xùn)練的語言模型。

        比如,OpenAI在第一個流行的RLHF模型InstructGPT中,使用了較小版本的 GPT-3。

        這個初始模型也可以根據(jù)額外的文本或條件進行微調(diào),但并不是必要的。

        一般來說,對于「哪種模型」最適合作為RLHF的起點,并沒有明確的答案。

        接下來,為了得到語言模型,我們需要生成數(shù)據(jù)來訓(xùn)練獎勵模型,這就是將人類偏好集成到系統(tǒng)中的方式。


        獎勵模型訓(xùn)練

        生成一個根據(jù)人類偏好校準的獎勵模型(RM,也稱為偏好模型)是RLHF中相對較新的研究。

        我們的基本目標是,獲得一個模型或系統(tǒng),該模型或系統(tǒng)接收一系列文本,并返回一個標量獎勵,這個獎勵要在數(shù)字上代表人類偏好。

        這個系統(tǒng)可以是端到端的LM,或輸出獎勵的模塊化系統(tǒng)(例如,模型對輸出進行排序,并將排名轉(zhuǎn)換為獎勵)。作為標量獎勵的輸出,對于稍后在RLHF過程中無縫集成的現(xiàn)有RL算法至關(guān)重要。

        這些用于獎勵建模的LM可以是另一個經(jīng)過微調(diào)的LM,也可以是根據(jù)偏好數(shù)據(jù)從頭開始訓(xùn)練的LM。

        RM的提示生成對的訓(xùn)練數(shù)據(jù)集,是通過從預(yù)定義數(shù)據(jù)集中采樣一組提示而生成的。提示通過初始語言模型生成新文本。

        然后,由人工注釋器對LM生成的文本進行排名。人類直接對每段文本打分以生成獎勵模型,這在實踐中很難做到。因為人類的不同價值觀會導(dǎo)致這些分數(shù)未經(jīng)校準而且很嘈雜。

        有多種方法可以對文本進行排名。一種成功的方法是讓用戶比較基于相同提示的兩種語言模型生成的文本。這些不同的排名方法被歸一化為用于訓(xùn)練的標量獎勵信號。

        有趣的是,迄今為止成功的RLHF系統(tǒng)都使用了與文本生成大小相似的獎勵語言模型??梢酝茰y,這些偏好模型需要具有類似的能力來理解提供給它們的文本,因為模型需要具有類似的能力才能生成所述文本。

        此時,在RLHF系統(tǒng)中,就有了一個可用于生成文本的初始語言模型,和一個接收任何文本并為其分配人類感知程度分數(shù)的偏好模型。接下來,就需要使用強化學(xué)習(xí)(RL)來針對獎勵模型優(yōu)化原始語言模型。


        使用強化學(xué)習(xí)微調(diào)

        這個微調(diào)任務(wù),可以表述為RL問題。

        首先,該策略是一種語言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。

        該策略的動作空間是語言模型詞匯對應(yīng)的所有token(通常在50k個token數(shù)量級),觀察空間包括可能的輸入token序列,因而相當(dāng)大(詞匯量x輸入的token數(shù)量)。

        而獎勵函數(shù)是偏好模型和策略轉(zhuǎn)變約束的結(jié)合。

        在獎勵函數(shù)中,系統(tǒng)將我們討論過的所有模型,組合到RLHF過程中。

        根據(jù)來自數(shù)據(jù)集的prompt x,會生成兩個文本y1和y2——一個來自初始語言模型,一個來自微調(diào)策略的當(dāng)前迭代。

        來自當(dāng)前策略的文本被傳遞到偏好模型后,該模型會返回一個關(guān)于「偏好」的標量概念——rθ。

        將該文本與來自初始模型的文本進行比較后,就可以計算對它們之間差異的懲罰。


        RLHF可以通過迭代更新獎勵模型和策略,從這一點繼續(xù)。

        隨著RL策略的更新,用戶可以繼續(xù)將這些輸出與模型的早期版本進行排名。

        這個過程中,就引入了策略和獎勵模型演變的復(fù)雜動態(tài),這個研究非常復(fù)雜,非常開放。

        參考資料:

        https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly

        https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7