| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

Anthropic"蒸餾"了人類最大的知識庫


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
2024 年初,在美國某處的一座倉庫裡,工人們正在做一件看起來有些奇怪的事:把書一本本送進機器,切掉書脊,掃描,然後把剩下的紙送去回收。


這些書是剛買來的,有些甚至是新的。沒有人會讀它們,它們存在的唯一目的,就是被數字化掃描,然後被銷毀。

下令做這件事的,是一家名為 Anthropic 的 AI 公司。




在他們的內部文件裡,這項計劃有個代號:“巴拿馬項目”。一份規劃文件裡如此寫道:“這是我們以破壞性方式掃描全球所有書籍的計劃,我們不希望外界知道我們正在做這件事。”

但這件事最終還是被人知道了。

上個月,一名美國聯邦法官解封了一批與版權訴訟相關的文件,總計超過 4000 頁。外界由此看到的,不只是一家 AI 公司的秘密,而是整個 AI 行業在數據爭奪戰中的真實面目。

被大模型“吃”掉的實體書

為什麼這些處於技術前沿的科技巨頭,會用如此原始甚至粗暴的方式對待紙質書?答案其實藏在 AI 對高質量數據的極度渴求裡。

Anthropic 內部很早就意識到,訓練 AI 模型光靠網絡上的內容不夠用。


根據《華盛頓郵報》報道,一位Anthropic 聯合創始人在 2023 年 1 月的文件中寫道,用書籍訓練模型,可以讓 AI 學會“如何寫得更好”,而不是只會模仿質量參差不齊的網絡語言。

書籍經過嚴格編輯和校對,內容結構清晰,是網絡文本難以替代的高質量語料。

這個邏輯本身並不難理解,但問題是,既然承認書籍有價值,為什麼不付錢?究其原因,挨個找出版社和作者談授權,費時費力,成本也高。於是 Anthropic 啟動了“巴拿馬項目”。僅憑那句“不希望外界知道”,說明它也清楚這件事不見得光。


甚至“巴拿馬項目”還沒啟動的時候,Anthropic 已經嘗試通過另一種方式獲取書籍。



Ben Mann

法院文件顯示,Anthropic 聯合創始人 Ben Mann 曾在 2021 年 6 月的 11 天裡,從一個叫 LibGen 的“影子圖書館”網站下載了大量侵權小說和非小說類書籍。

一年後,另一個網站 Pirate Library Mirror 於 2022 年 7 月上線,該網站公開宣稱“在大多數國家故意違反版權法”。

Mann 把這個網站的鏈接發給了其他 Anthropic 員工,並留言寫道:“來得正是時候!!!”從這些感歎號,我們也能看出一位公司高管對一個公開承認違法的盜版網站表達的真實態度。
點個贊吧!您的鼓勵讓我們進步     好新聞沒人評論怎麼行,我來說幾句
上一頁1234下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0216 秒 and 5 DB Queries in 0.0021 秒