国产末成年女av产_日韩欧美日韩一区_亚洲免费观看日本在线视频_av午夜福利在线播放_日日狠狠久久偷偷色按摩_午夜激情无码av毛片不卡_香蕉美女视频网站_影音先锋色来吧综合网亚洲_亚洲女同中文字幕_无码一级毛片在线免费观看

當(dāng)前位置:睿智資訊在線 > 娛樂 » 正文內(nèi)容

狂背90%《哈利波特》這玩意真成免費(fèi)電子書庫(kù)了

時(shí)間: 2025-07-15 10:12:00來源:頭條瀏覽: 28次

再這么下去，狂背庫(kù)大模型真要成免費(fèi)電子書城了。哈利

用大模型，波特就能讓 AI 吐出 90% 以上的玩意《哈利波特》全文，你敢信嗎？真成

前段時(shí)間，斯坦福的免費(fèi)團(tuán)隊(duì)在 arXiv 上發(fā)表了一篇論文，名為《從開源大模型中提?。ㄊ馨鏅?quán)保護(hù)的電書）書籍的記憶片段》。

在這篇文章里，狂背庫(kù)Meta 的哈利 Llama 被重點(diǎn)點(diǎn)名，而被復(fù)刻的波特對(duì)象，是玩意大伙兒都知道的《哈利波特與魔法石》。

復(fù)刻的真成過程非常簡(jiǎn)單，主打一個(gè)古詩(shī)詞默寫，免費(fèi)你給上半句，電書Llama 接下半句。狂背庫(kù)而且判定很嚴(yán)格，要一字不差才行。

只有中間一行是成功案例

這么一來一回，實(shí)驗(yàn)結(jié)果表示，《哈利波特與魔法石》有 91.14% 的內(nèi)容都能被 Llama 記住，再給你原封不動(dòng)地背出來。

但說實(shí)話，這數(shù)據(jù)有點(diǎn)過于保守了。畢竟大部分人看書，多個(gè)字少個(gè)字也不影響理解，加上這部分容錯(cuò)率，Llama 能背出來的比例絕對(duì)不止 91.14%。

再結(jié)合下面這張圖，更是錘上加錘。它不僅記得多，還記得全呢。從小說開頭到結(jié)尾，均勻分布，無一幸免。

從左到右代表小說的開始到結(jié)束。

豎線越密，可復(fù)刻內(nèi)容越多，顏色越深，成功概率越高。

我們翻遍全文，發(fā)現(xiàn)哈利波特不是唯一一本被記住的，Llama 也不是唯一一個(gè)會(huì)背書的，大家或多或少都沾點(diǎn)。

除了 Llama，Pythia、Gemma、Phi 也在這不恰當(dāng)?shù)臅r(shí)刻展示出了它們驚人的記憶力。文章里只列出來了 100 本被記住的書，實(shí)際上它們背得更多。

本來拿版權(quán)方的東西去做訓(xùn)練都忍不了，現(xiàn)在居然還能背出來？要不是現(xiàn)在大模型有上下文長(zhǎng)度限制，豈不是一鍵輸出全文了？

咱認(rèn)真研究了一下這個(gè)事，發(fā)現(xiàn)鍋一部分在科技公司頭上，另一部分在一個(gè)叫 Books3 的數(shù)據(jù)集上。

Books3 是一個(gè)包含 196640 本 txt 的數(shù)據(jù)集，里面偷了不少盜版書。幾乎所有大模型都用它做訓(xùn)練，不過數(shù)據(jù)集明面上很早就被下架，變成了不能說的秘密。

Paperwithcode 網(wǎng)站上留存的 Book3 悼詞

很顯然，大家都用了 Books3 搞訓(xùn)練，只不過有些大模型沒做好安全防御機(jī)制，才被抓住了把柄。

于是，經(jīng)常被 gank 的 Meta 又一次被 13 位作家送上了法庭。

沒經(jīng)我們?cè)试S，就拿我們的作品去訓(xùn)練大模型。這回證據(jù)確鑿，還能一字不差吐出來，你認(rèn)不認(rèn)？

連一向討厭 JK 羅琳的吃瓜群眾也紛紛覺得，拿盜版書訓(xùn)練模型就是侵權(quán)，沒啥可洗的。

出乎所有人意料的是，Meta 居然贏了官司?？赐炅饲耙蚝蠊?，我們覺得版權(quán)方純粹是輸在了智商。。。

版權(quán)方提出的舉證，是 Llama 把書背出來，損害到了他們真書的銷量。

但要說現(xiàn)在，有人用大模型生成哈利波特直接當(dāng)成電子書看，那也太高難了，不可能在市場(chǎng)上和真書產(chǎn)生競(jìng)爭(zhēng)關(guān)系。

再看看 Meta 方的辯詞：美國(guó)版權(quán)法 “允許未經(jīng)授權(quán)，復(fù)制作品并將其轉(zhuǎn)化為新作品”，并且聊天機(jī)器人產(chǎn)生的人工智能表達(dá)，與訓(xùn)練用的書籍有著根本的不同。

用人話講，科學(xué)的東西，你得看原理。大模型輸出的東西都是它學(xué)習(xí)理解再轉(zhuǎn)述出來的，就跟人讀書寫作似的，屬于 “新作品” 了。

最終法官表示，作者未能提供足夠證據(jù)證明，大模型會(huì)搶真書的份額，但用盜版訓(xùn)練大模型，確實(shí)不地道。

意思就是，版權(quán)方論點(diǎn)對(duì)了，論據(jù)給錯(cuò)了。

而版權(quán)方和大模型互撕，這不是第一次，肯定也不是最后一次。

2023 年，紐約時(shí)報(bào)起訴 OpenAI 訓(xùn)練集涉及侵權(quán)。近期，還有 Reddit 起訴 Claude、迪士尼和環(huán)球聯(lián)合告 Midjourney、作家組團(tuán)和微軟 Megatron 打官司等等。。。

感覺一個(gè)大模型要是沒被告過，只能說明它做得太拉了，無人在意。

在雷區(qū)反復(fù)橫跳

那天天上法庭，科技公司就沒啥預(yù)防手段嗎？我們查了一下相關(guān)資料，發(fā)現(xiàn)為了不被告，有的公司選擇買斷網(wǎng)站數(shù)據(jù)庫(kù)，比如谷歌買斷 Reddit 數(shù)據(jù)包，而有的公司真是什么匪夷所思的事都做得出來。

舉個(gè)最近的例子，2024 年 Claude 背后的 Anthropic 意識(shí)到使用盜版數(shù)據(jù)集的法律風(fēng)險(xiǎn)，于是花了數(shù)百萬美元購(gòu)買實(shí)體圖書。

考慮到成本，收來的書里很多是二手，掃描入庫(kù)制成數(shù)據(jù)集后立刻銷毀。數(shù)據(jù)集只在公司內(nèi)部用于訓(xùn)練，不可外傳。

這單純是為了迎合美國(guó)的首次銷售原則，只要你買了第一次，之后想怎么處理它都可以。

咱也不知道這些實(shí)體書里有沒有啥珍貴孤本，反正為了不侵權(quán)，Anthropic 沒坑儒，只焚書了。

這個(gè)舉動(dòng)確實(shí)成為了 Anthropic 在法庭上的制勝一擊，但問題是，這么做真的合理嗎？

吃完這個(gè)瓜，我能理解為啥那么多版權(quán)方想手撕大模型，也能理解科技公司為啥非得干這么不地道的事兒。

從大模型訓(xùn)練的角度，它無法避免對(duì)大量高質(zhì)量數(shù)據(jù)的需求，科技發(fā)展不等人，也沒有時(shí)間等待各種授權(quán)。它能做到最好的，也就是把侵權(quán)的內(nèi)容厚碼一下，盡量減小對(duì)正主的影響。

而從版權(quán)方的角度，大模型這樣發(fā)展下去，他們的利益遲早會(huì)被徹底侵犯。不止現(xiàn)在啃他們一口又一口，未來還可能被盜版訓(xùn)練出來的模型取而代之。

這種不可調(diào)和的矛盾，造成為了形式正義而毀書一類的荒謬舉動(dòng)。

只能說，爭(zhēng)取權(quán)益是必要的，但在這場(chǎng)爭(zhēng)端里，恐怕沒有真正的贏家。

本文來源：http://www.iv82.cn/news/81e38799531.html

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

您可能也喜歡：

相關(guān)文章

狂背90%《哈利波特》 這玩意真成免費(fèi)電子書庫(kù)了

狂背90%《哈利波特》這玩意真成免費(fèi)電子書庫(kù)了