2023成都積分入學(xué)什么時(shí)候開(kāi)始申請(qǐng)
2023-01-31
更新時(shí)間:2022-10-19 18:05:46作者:智慧百科
新智元報(bào)道
編輯:David
【新智元導(dǎo)讀】以方便程序員寫(xiě)代碼為名,吸血開(kāi)源社區(qū)為實(shí),Github的「AI碼農(nóng)」Copilot其實(shí)就是個(gè)寄生蟲(chóng)?
Github去年推出的「AI程序員」Copilot曾一度受到程序員的熱捧,但一個(gè)爭(zhēng)議始終沒(méi)有解決。
既然是AI,模型總要訓(xùn)練,寫(xiě)代碼的AI,訓(xùn)練數(shù)據(jù)從哪里來(lái)?誰(shuí)提供的訓(xùn)練代碼?微軟和GitHub的說(shuō)法倒是直接:Github資源庫(kù)里直接拿的。
說(shuō)的好聽(tīng),幫碼農(nóng)寫(xiě)代碼,其實(shí)是白嫖碼農(nóng)的代碼?開(kāi)源社區(qū)對(duì)這一直意見(jiàn)很大。
最近,程序員 Matthew Butterick 站了出來(lái),擁有律師身份的他,在個(gè)人博客中發(fā)文控訴了 Copilot,并宣布開(kāi)展訴訟調(diào)查:
Copilot是什么?
GitHub Copilot是微軟在長(zhǎng)達(dá)一年的技術(shù)預(yù)覽后,于2022年6月發(fā)布的產(chǎn)品。Copilot是Visual Studio和其他IDE的一個(gè)插件,根據(jù)用戶在編輯器中輸入的內(nèi)容產(chǎn)生微軟所謂的 「建議」。
這是一個(gè)營(yíng)銷(xiāo)噱頭,也是一個(gè)巨大的違反開(kāi)源許可證的框架。
Copilot與傳統(tǒng)IDE中的自動(dòng)完成功能有何不同?Copilot由Codex驅(qū)動(dòng),后者是一個(gè)由OpenAI創(chuàng)建并授權(quán)給微軟的人工智能系統(tǒng)。
Copilot根據(jù)用戶輸入的文本提示提供建議。Copilot可用于小的建議,比如移動(dòng)到行末,但微軟強(qiáng)調(diào),Copilot有能力為更大的代碼塊提供建議,如整個(gè)函數(shù)的主體部分。
但是Codex,這個(gè)底層的人工智能系統(tǒng)是如何訓(xùn)練的?根據(jù)OpenAI的說(shuō)法,Codex是在 「數(shù)以千萬(wàn)計(jì)的公共資源庫(kù),包括GitHub上的代碼上訓(xùn)練的」。微軟自己也含糊地將訓(xùn)練材料描述為「數(shù)十億行的公共代碼」。
但Copilot研究員Eddie Aftandilian在最近的播客中證實(shí),實(shí)際上Copilot是在 GitHub上的公共資源庫(kù)上訓(xùn)練的。
Copilot的問(wèn)題:所謂「合理使用」于法無(wú)據(jù)
我們對(duì)Copilot的了解,引發(fā)了與該系統(tǒng)的訓(xùn)練和使用有關(guān)的法律問(wèn)題。
關(guān)于系統(tǒng)的訓(xùn)練: 絕大多數(shù)開(kāi)源軟件包都是根據(jù)許可證發(fā)布的,這些許可證授予用戶某些權(quán)利并規(guī)定了某些義務(wù)(例如,保持源代碼的準(zhǔn)確歸屬)。這些許可證在法律上是由軟件作者主張他們的代碼的版權(quán)而實(shí)現(xiàn)的。
因此,那些希望使用開(kāi)源軟件的人只有一個(gè)選擇,要么不用,要用就必須遵守許可證規(guī)則。
[我們都明白了,微軟并不是我們所聽(tīng)說(shuō)的那種令人敬畏的、友好的、完全道德的公司......」
Ryan Fleury
微軟和OpenAI已經(jīng)承認(rèn),Copilot和Codex是在GitHub上的公共倉(cāng)庫(kù)的開(kāi)源軟件上進(jìn)行訓(xùn)練的。那么他們做出了哪種選擇?
如果微軟和OpenAI選擇在他們各自的開(kāi)源許可下使用這些軟件,微軟和OpenAI就需要發(fā)布大量的署名,因?yàn)檫@是幾乎所有開(kāi)源許可的最低要求。然而,Copilot沒(méi)有明顯的署名。
因此,微軟和OpenAI一定是在依靠「合理使用」的論據(jù)。前GitHub首席執(zhí)行官Nat Friedman在Copilot技術(shù)預(yù)覽版本公布后聲稱,在公共數(shù)據(jù)上訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)屬于合理使用。
真的是這樣嗎?
這不是觀點(diǎn)問(wèn)題,而是法律問(wèn)題。自然,微軟、OpenAI和其他研究人員一直在宣傳公平使用的說(shuō)法。Nat Friedman進(jìn)一步宣稱,有關(guān)于合理使用的判例,被機(jī)器學(xué)習(xí)界廣泛依賴。但軟件自由保護(hù)協(xié)會(huì)不同意,并要求微軟提供證據(jù)來(lái)支持其立場(chǎng)。
根據(jù)自由軟件保護(hù)協(xié)會(huì)(SFC)主任Bradley Kuhn的說(shuō)法:
[我們?cè)?021年6月私下詢問(wèn)了Friedman和其他微軟和GitHub的代表,要求為GitHub的公開(kāi)法律立場(chǎng)提供可靠的法律參考......他們沒(méi)有提供。
為什么微軟不能自己的立場(chǎng)提供任何法律權(quán)威依據(jù)?因?yàn)镾FC說(shuō)的沒(méi)錯(cuò):沒(méi)有任何依據(jù)。
此外,關(guān)于合理使用的案件要平衡多種因素。即使法院最終裁定某些類型的人工智能訓(xùn)練是合理使用--這似乎是可能的--它也可能排除其他因素。到今天為止,我們還不知道Copilot或Codex是否屬于這個(gè)范圍。微軟和OpenAI也不知道。
為什么說(shuō)微軟的理由是扯淡?
我們還不能說(shuō)合理使用的原則最終將如何適用于AI訓(xùn)練。但我們知道,這根本不會(huì)影響Copilot用戶。為什么?因?yàn)樗麄冎皇怯肅opilot來(lái)寫(xiě)代碼。那么,寫(xiě)的代碼的版權(quán)和許可狀況如何?
在2021年,Nat Friedman聲稱,Copilot產(chǎn)生的輸出屬于「操作者,就像編譯器一樣」。但這是個(gè)很扯淡的比喻,Copilot為不小心的人埋下了新的陷阱。
微軟將Copilot的輸出描述為一系列的「代碼建議」。微軟對(duì)這些建議不主張任何權(quán)利。但是,微軟也不對(duì)這樣生成的代碼的正確性、安全性或減輕的知識(shí)產(chǎn)權(quán)糾葛做出任何保證。一旦接受了Copilot的建議,所有這些都將成為你的問(wèn)題。
這樣的規(guī)定可能出現(xiàn)什么麻煩?
Copilot的用戶已經(jīng)表明,Copilot可以被誘導(dǎo)從可識(shí)別的資源庫(kù)中發(fā)出逐字逐句的代碼。就在本周,德克薩斯A&M大學(xué)教授Tim Davis的大段代碼就被Copilot逐字復(fù)制,甚至連注釋都一起復(fù)制了。
這里,關(guān)于代碼來(lái)源的信息--作者、許可證等--都被剝離了。如果Copilot的用戶甚至不知道許可證的存在,他們?cè)趺茨茏袷卦S可證的規(guī)定?
Copilot神奇的代碼檢索方法是一個(gè)煙幕彈,旨在掩蓋一個(gè)骯臟的事實(shí):Copilot只是一個(gè)方便的替代接口,可以訪問(wèn)大量的開(kāi)源代碼。因此,Copilot用戶可能會(huì)對(duì)底層代碼的作者產(chǎn)生許可義務(wù)。
在這種背景下,Nat Friedman聲稱Copilot的操作 「就像編譯器」是相當(dāng)可疑的。
Copilot就是一條「寄生蟲(chóng)」
通過(guò)提供Copilot作為大量開(kāi)放源代碼的替代界面,微軟所做的不僅僅是切斷開(kāi)放源代碼作者和用戶之間的法律關(guān)系。
可以說(shuō),微軟正在創(chuàng)造一個(gè)新的圍墻花園,它將抑制程序員發(fā)現(xiàn)傳統(tǒng)的開(kāi)源社區(qū)?;蛘咧辽?,消除任何這樣做的動(dòng)機(jī)。隨著時(shí)間的推移,這個(gè)過(guò)程將使這些社區(qū)陷入饑餓。
用戶的注意力和參與將被轉(zhuǎn)移到Copilot的圍墻花園中,而遠(yuǎn)離開(kāi)源項(xiàng)目本身--遠(yuǎn)離他們的源代碼庫(kù)、問(wèn)題跟蹤器、郵件列表和討論區(qū)。這種能量的轉(zhuǎn)移對(duì)開(kāi)源來(lái)說(shuō)將是一個(gè)痛苦的、永久性的損失。
Copilot就是寄生蟲(chóng)!
微軟云計(jì)算高管Scott Guthrie最近承認(rèn),盡管微軟CEO Satya Nadella在收購(gòu)GitHub時(shí)做出了「GitHub將保持開(kāi)放平臺(tái)」的美好承諾,但微軟一直在推動(dòng)更多的GitHub服務(wù),包括Copilot,進(jìn)入其Azure云平臺(tái)。
顯然,開(kāi)源開(kāi)發(fā)者不是為了錢(qián),但我們也不是白做的。發(fā)布開(kāi)源軟件的一大好處是人:由用戶、測(cè)試人員和貢獻(xiàn)者組成的社區(qū),圍繞著我們的工作凝聚起來(lái)。
我們的社區(qū)幫助我們以自己無(wú)法做到的方式使軟件變得更好。這使我們的工作充滿樂(lè)趣和合作。
Copilot為開(kāi)源軟件引入了一個(gè)更自私的方式:只要給我想要的東西就可以了。有了Copilot,開(kāi)源用戶就不必知道誰(shuí)制作了他們的軟件。他們不需要與社區(qū)互動(dòng)。也不需要做出貢獻(xiàn)。
與此同時(shí),開(kāi)源作者不得不眼睜睜地看著我們的作品被藏在一個(gè)叫做Copilot的大代碼庫(kù)里。我們得到的用戶反饋和貢獻(xiàn)?很快,全部消失了。Copilot對(duì)我們的個(gè)人項(xiàng)目毫無(wú)貢獻(xiàn)。對(duì)廣泛的開(kāi)源社區(qū)也沒(méi)有貢獻(xiàn)。
Copilot的圍墻花園與開(kāi)源生態(tài)是對(duì)立的,是有毒的。
因此,這也是對(duì)GitHub在被微軟收購(gòu)之前所代表的一切的背叛。如果你在2005年之前出生,你會(huì)記得GitHub的聲譽(yù)是建立在它對(duì)開(kāi)源開(kāi)發(fā)者的友好和對(duì)開(kāi)源社區(qū)的培養(yǎng)上的。相比之下,Copilot一來(lái),這些完全走向了反面。
當(dāng)我第一次寫(xiě)到Copilot時(shí),我曾說(shuō)「不擔(dān)心它對(duì)開(kāi)源的影響」。在短期內(nèi),我仍然不擔(dān)心。但是,當(dāng)我反思我自己25年的開(kāi)源之旅,我意識(shí)到,我忽略了大局,開(kāi)源社區(qū)并不是一個(gè)固定的群體,它在不斷成長(zhǎng)、不斷變化,不斷地被新的思想所更新。
這時(shí),Copilot來(lái)了。它的目標(biāo)是將開(kāi)源的能量賦予自己。我們不需要深入了解微軟在開(kāi)源方面的歷史,就能看出Copilot的本質(zhì):寄生蟲(chóng)。
在Copilot對(duì)開(kāi)源生態(tài)的損害變得不可挽回之前,它的合法性必須得到檢驗(yàn),這也正是我要告Copilot的原因。
參考資料:
https://githubcopilotinvestigation.com/#what-is-github-copilot