| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

OpenAI CEO曬網友新年願望單:GPT-5呼聲最高

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
開源項目推進


其中最引人注目的是四項內容:GPT-5、視頻、開源、更好的GPTs / 個性化部署,這幾項內容可能帶來AI開發生態、用戶體驗、及產品能力上質的躍遷。“控制覺醒程度/行為”,不出意外的也出現在這個清單之中,可以看出大眾對這家公司的責任擔當的期待。那麼,如果要完成這份清單,OpenAI可能需要解決的難題及突破重點有哪些呢?

01 想要在2024年完成GPT-5的訓練,OpenAI要做的不少


OpenAI正在訓練GPT-5這件事已經越來越明晰了。早在7月18日,他們已經向美國專利商標局提交了GPT-5的商標申請。到了11月14日,奧特曼接受金融時報采訪時也終於承認GPT-5已經在路上了,雖然可能僅僅是開發的准備階段。奧特曼在采訪中的表述是“在我們訓練這個模型之前,這對我們來說就像是一個有趣的猜謎游戲”,這說明OpenAI應該還沒開始訓練模型。在准備階段他們在做的可能涉及建立訓練方法、組織注釋器,以及最關鍵的數據集管理。



數據瓶頸

數據問題一直被認為是OpenAI發布下一代大模型的主要瓶頸。因為縮放效應這種“喂的越多模型就越強”的邏輯仍然是AI能力進步的主要主導思想。但在訓練GPT-4時,OpenAI已經有些捉襟見肘了。傳聞稱,GPT-4的訓練數據共 13T(13 萬億個)token。這一數據量級基本耗盡了現有數據:CommonCrawl 和 RefinedWeb 兩個公開數據集都是 5T 個 token;據說余下部分來源 Twitter、Reddit 和 YouTube;最近沸沸揚揚的爭論中,馬斯克還指控OpenAI使用了來自 LibGen、SciHub 等盜版電子圖書網站中的數據。


但這一問題當下也有一定的解決方法。

第一個方法就是買:對於私人或公司領域的數據,OpenAI在之前的訓練中少有涉及,但這部分需付費的內容在互聯網中占比是非常大的。今年OpenAI就曾表示願意每年支付高達八位數的費用,用以獲取彭博社自有的歷史和持續的金融文件數據訪問權限。雖然彭博沒答應,而是自己搞了個Bloomberg GPT,但高價之下,總是可以買來一部分數據的。


第二個就是合成數據訓練,微軟開發的高質量小模型Phi-1就已經實踐了利用合成數據訓練模型的嘗試,在3T的訓練集中用了大概1.5B GPT-3.5生成的高質量合成數據,並取得了模型能力的提升。雖然1.5B看起來占比很小,但考慮到微軟是用這些數據做教程用的,並非基礎能力構建。如果GPT-5把遵循一定的條件限制的高質量合成數據應用在更多領域,那這一合成數據占比肯定能提升不少。



訓練周期

按照Dylan Patel 泄漏的GPT-4的訓練周期看,在完成訓練准備後,OpenAI在大約25000個A100上訓練了90到100天才完成,之後又經過了長達6個月的對齊工作才發布。整體周期需要9個月時間。考慮到GPT-5更大,更復雜這一時間長度完全有可能更長,那在2024年發布GPT-5似乎並不樂觀。
您的點贊是對我們的鼓勵     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0399 秒 and 4 DB Queries in 0.0021 秒