再這么下去,狂背庫(kù)大模型真要成免費(fèi)電子書城了。哈利
用大模型,波特就能讓 AI 吐出 90% 以上的玩意《 哈利波特 》全文,你敢信嗎?真成
前段時(shí)間,斯坦福的免費(fèi)團(tuán)隊(duì)在 arXiv 上發(fā)表了一篇論文,名為《 從開源大模型中提?。ㄊ馨鏅?quán)保護(hù)的電書)書籍的記憶片段 》。
在這篇文章里,狂背庫(kù)Meta 的哈利 Llama 被重點(diǎn)點(diǎn)名,而被復(fù)刻的波特對(duì)象,是玩意大伙兒都知道的《 哈利波特與魔法石 》。
復(fù)刻的真成過程非常簡(jiǎn)單,主打一個(gè)古詩(shī)詞默寫,免費(fèi)你給上半句,電書Llama 接下半句。狂背庫(kù)而且判定很嚴(yán)格,要一字不差才行。
只有中間一行是成功案例
這么一來一回,實(shí)驗(yàn)結(jié)果表示,《 哈利波特與魔法石 》有 91.14% 的內(nèi)容都能被 Llama 記住,再給你原封不動(dòng)地背出來。
但說實(shí)話,這數(shù)據(jù)有點(diǎn)過于保守了。畢竟大部分人看書,多個(gè)字少個(gè)字也不影響理解,加上這部分容錯(cuò)率,Llama 能背出來的比例絕對(duì)不止 91.14%。
再結(jié)合下面這張圖,更是錘上加錘。它不僅記得多,還記得全呢。從小說開頭到結(jié)尾,均勻分布,無一幸免。
從左到右代表小說的開始到結(jié)束。
豎線越密,可復(fù)刻內(nèi)容越多,顏色越深,成功概率越高。
我們翻遍全文,發(fā)現(xiàn)哈利波特不是唯一一本被記住的,Llama 也不是唯一一個(gè)會(huì)背書的,大家或多或少都沾點(diǎn)。
除了 Llama,Pythia、Gemma、Phi 也在這不恰當(dāng)?shù)臅r(shí)刻展示出了它們驚人的記憶力。文章里只列出來了 100 本被記住的書,實(shí)際上它們背得更多。
本來拿版權(quán)方的東西去做訓(xùn)練都忍不了,現(xiàn)在居然還能背出來?要不是現(xiàn)在大模型有上下文長(zhǎng)度限制,豈不是一鍵輸出全文了?
咱認(rèn)真研究了一下這個(gè)事,發(fā)現(xiàn)鍋一部分在科技公司頭上,另一部分在一個(gè)叫 Books3 的數(shù)據(jù)集上。
Books3 是一個(gè)包含 196640 本 txt 的數(shù)據(jù)集,里面偷了不少盜版書。幾乎所有大模型都用它做訓(xùn)練,不過數(shù)據(jù)集明面上很早就被下架,變成了不能說的秘密。
Paperwithcode 網(wǎng)站上留存的 Book3 悼詞
很顯然,大家都用了 Books3 搞訓(xùn)練,只不過有些大模型沒做好安全防御機(jī)制,才被抓住了把柄。
于是,經(jīng)常被 gank 的 Meta 又一次被 13 位作家送上了法庭。
沒經(jīng)我們?cè)试S,就拿我們的作品去訓(xùn)練大模型。這回證據(jù)確鑿,還能一字不差吐出來,你認(rèn)不認(rèn)?
連一向討厭 JK 羅琳的吃瓜群眾也紛紛覺得,拿盜版書訓(xùn)練模型就是侵權(quán),沒啥可洗的。
出乎所有人意料的是,Meta 居然贏了官司??赐炅饲耙蚝蠊?,我們覺得版權(quán)方純粹是輸在了智商。。。
版權(quán)方提出的舉證,是 Llama 把書背出來,損害到了他們真書的銷量。
但要說現(xiàn)在,有人用大模型生成哈利波特直接當(dāng)成電子書看,那也太高難了,不可能在市場(chǎng)上和真書產(chǎn)生競(jìng)爭(zhēng)關(guān)系。
再看看 Meta 方的辯詞:美國(guó)版權(quán)法 “允許未經(jīng)授權(quán),復(fù)制作品并將其轉(zhuǎn)化為新作品”,并且聊天機(jī)器人產(chǎn)生的人工智能表達(dá),與訓(xùn)練用的書籍有著根本的不同。
用人話講,科學(xué)的東西,你得看原理。大模型輸出的東西都是它學(xué)習(xí)理解再轉(zhuǎn)述出來的,就跟人讀書寫作似的,屬于 “新作品” 了。
最終法官表示,作者未能提供足夠證據(jù)證明,大模型會(huì)搶真書的份額,但用盜版訓(xùn)練大模型,確實(shí)不地道。
意思就是,版權(quán)方論點(diǎn)對(duì)了,論據(jù)給錯(cuò)了。
而版權(quán)方和大模型互撕,這不是第一次,肯定也不是最后一次。
2023 年,紐約時(shí)報(bào)起訴 OpenAI 訓(xùn)練集涉及侵權(quán)。近期,還有 Reddit 起訴 Claude、迪士尼和環(huán)球聯(lián)合告 Midjourney、作家組團(tuán)和微軟 Megatron 打官司等等。。。
感覺一個(gè)大模型要是沒被告過,只能說明它做得太拉了,無人在意。
在雷區(qū)反復(fù)橫跳
那天天上法庭,科技公司就沒啥預(yù)防手段嗎?我們查了一下相關(guān)資料,發(fā)現(xiàn)為了不被告,有的公司選擇買斷網(wǎng)站數(shù)據(jù)庫(kù),比如谷歌買斷 Reddit 數(shù)據(jù)包,而有的公司真是什么匪夷所思的事都做得出來。
舉個(gè)最近的例子,2024 年 Claude 背后的 Anthropic 意識(shí)到使用盜版數(shù)據(jù)集的法律風(fēng)險(xiǎn),于是花了數(shù)百萬美元購(gòu)買實(shí)體圖書。
考慮到成本,收來的書里很多是二手,掃描入庫(kù)制成數(shù)據(jù)集后立刻銷毀。數(shù)據(jù)集只在公司內(nèi)部用于訓(xùn)練,不可外傳。
這單純是為了迎合美國(guó)的首次銷售原則,只要你買了第一次,之后想怎么處理它都可以。
咱也不知道這些實(shí)體書里有沒有啥珍貴孤本,反正為了不侵權(quán),Anthropic 沒坑儒,只焚書了。
這個(gè)舉動(dòng)確實(shí)成為了 Anthropic 在法庭上的制勝一擊,但問題是,這么做真的合理嗎?
吃完這個(gè)瓜,我能理解為啥那么多版權(quán)方想手撕大模型,也能理解科技公司為啥非得干這么不地道的事兒。
從大模型訓(xùn)練的角度,它無法避免對(duì)大量高質(zhì)量數(shù)據(jù)的需求,科技發(fā)展不等人,也沒有時(shí)間等待各種授權(quán)。它能做到最好的,也就是把侵權(quán)的內(nèi)容厚碼一下,盡量減小對(duì)正主的影響。
而從版權(quán)方的角度,大模型這樣發(fā)展下去,他們的利益遲早會(huì)被徹底侵犯。不止現(xiàn)在啃他們一口又一口,未來還可能被盜版訓(xùn)練出來的模型取而代之。
這種不可調(diào)和的矛盾,造成為了形式正義而毀書一類的荒謬舉動(dòng)。
只能說,爭(zhēng)取權(quán)益是必要的,但在這場(chǎng)爭(zhēng)端里,恐怕沒有真正的贏家。
本文來源:http://www.iv82.cn/news/81e38799531.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容,請(qǐng)發(fā)送郵件舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。