OpenAI CEO曬網友新年願望單:GPT-5呼聲最高

2023-12-25 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

在平安夜的清晨，就在大家還在熱議GPT-4.5是否已經悄悄上線的時候，OpenAI CEO 山姆·奧特曼發布了一條推文，直接劍指GPT-5，給AI開發者和用戶送了份充滿充滿期待的聖誕禮物。

這份清單其實起源於12月24日，奧特曼在社交媒體上發布了一條征集帖“你希望OpenAI 在2024年能做到哪些事情？”他的粉絲回復熱情很高，奧特曼梳理了一份List（如圖片所示），除了在AGI旁邊標注了“還需要點耐心”的字樣外，其它的願望清單都沒有做任何標注，我們有理由相信，也許奧特曼認為其余目標都有可能在2024年做到。

這份清單包括：

1

AGI（還需要些耐心）

2

GPT-5

3

更好的語音模式

4

更高的使用頻率限制

5

更好的GPTs

6

更好的推理能力

7

控制覺醒程度/行為

8

視頻功能

9

個性化部署

10

更好的瀏覽體驗

11

可以使用OpenAI賬號登錄

12

開源項目推進

奧特曼神秘晚宴講話曝出!OpenAI的CEO或是AI?

ChatGPT"認同"還助16歲少年輕生!父母控告OpenAI

OpenAI:考慮收購Chrome 缺乏算力更好模型沒法用

其中最引人注目的是四項內容：GPT-5、視頻、開源、更好的GPTs / 個性化部署，這幾項內容可能帶來AI開發生態、用戶體驗、及產品能力上質的躍遷。“控制覺醒程度/行為”，不出意外的也出現在這個清單之中，可以看出大眾對這家公司的責任擔當的期待。那麼，如果要完成這份清單，OpenAI可能需要解決的難題及突破重點有哪些呢？

01 想要在2024年完成GPT-5的訓練，OpenAI要做的不少

OpenAI正在訓練GPT-5這件事已經越來越明晰了。早在7月18日，他們已經向美國專利商標局提交了GPT-5的商標申請。到了11月14日，奧特曼接受金融時報采訪時也終於承認GPT-5已經在路上了，雖然可能僅僅是開發的准備階段。奧特曼在采訪中的表述是“在我們訓練這個模型之前，這對我們來說就像是一個有趣的猜謎游戲”，這說明OpenAI應該還沒開始訓練模型。在准備階段他們在做的可能涉及建立訓練方法、組織注釋器，以及最關鍵的數據集管理。

數據瓶頸

數據問題一直被認為是OpenAI發布下一代大模型的主要瓶頸。因為縮放效應這種“喂的越多模型就越強”的邏輯仍然是AI能力進步的主要主導思想。但在訓練GPT-4時，OpenAI已經有些捉襟見肘了。傳聞稱，GPT-4的訓練數據共 13T（13 萬億個）token。這一數據量級基本耗盡了現有數據：CommonCrawl 和 RefinedWeb 兩個公開數據集都是 5T 個 token；據說余下部分來源 Twitter、Reddit 和 YouTube；最近沸沸揚揚的爭論中，馬斯克還指控OpenAI使用了來自 LibGen、SciHub 等盜版電子圖書網站中的數據。

但這一問題當下也有一定的解決方法。

第一個方法就是買：對於私人或公司領域的數據，OpenAI在之前的訓練中少有涉及，但這部分需付費的內容在互聯網中占比是非常大的。今年OpenAI就曾表示願意每年支付高達八位數的費用，用以獲取彭博社自有的歷史和持續的金融文件數據訪問權限。雖然彭博沒答應，而是自己搞了個Bloomberg GPT，但高價之下，總是可以買來一部分數據的。

第二個就是合成數據訓練，微軟開發的高質量小模型Phi-1就已經實踐了利用合成數據訓練模型的嘗試，在3T的訓練集中用了大概1.5B GPT-3.5生成的高質量合成數據，並取得了模型能力的提升。雖然1.5B看起來占比很小，但考慮到微軟是用這些數據做教程用的，並非基礎能力構建。如果GPT-5把遵循一定的條件限制的高質量合成數據應用在更多領域，那這一合成數據占比肯定能提升不少。

訓練周期

按照Dylan Patel 泄漏的GPT-4的訓練周期看，在完成訓練准備後，OpenAI在大約25000個A100上訓練了90到100天才完成，之後又經過了長達6個月的對齊工作才發布。整體周期需要9個月時間。考慮到GPT-5更大，更復雜這一時間長度完全有可能更長，那在2024年發布GPT-5似乎並不樂觀。

但奧特曼的自信並非全無道理。GPT-4之所以訓練了這麼久的原因是故障過多導致GPU利用率較低，利用率僅為32%到36%之間。而每次故障都需要重新從之前的檢查點開始訓練。考慮到今年Gemini在訓練過程中TPU的利用率應該大於50%，而且當谷歌使用模型狀態的冗余內存副本，並且在任何計劃外的硬件故障時，可以直接從完整的模型副本中快速恢復。有著英偉達H200加成及微軟從2019年就啟動的名為雅典娜的類TPU項目加持，GPT-5在訓練利用率上應該會較GPT-4有很大的提升。

而對齊工作在今年的進展就更大了。首先是AI輔助自動進行對齊工作的可能性被驗證有效（RLAIF），這衍生出了很多在AI參與乃至主導下的對齊研究。通過這種方式，可以大大縮短之前最費人力和時間的RLHF這一對齊步驟，提升對齊效率。但之前這種方法主要適用於用能力強的模型對齊能力弱的模型，提高其能力。但OpenAI在12月剛剛發布的弱到強泛化論文，提供了較弱AI仍然可以對齊能力更強AI的證據和方法。兩種技術相結合，用GPT-4自動對齊GPT-5的邏輯和方法都有了，因此對齊時間有望被大幅縮短。

在以上條件下，有理由相信GPT-5的全部訓練周期可能會短於GPT-4，這樣它在2024年發布就不成問題了。

02 多模態還是必爭之地，OpenAI劍指文生視頻爆發元年

在這個願望清單上，另一個值得注意的點是視頻功能的支持。這一點OpenAI的競爭對手Google已經處於領先地位了。在訓練Gemini的過程中，谷歌使用了多模態原生的數據，其中就包括視頻。這說明Gemini已經有了對於視頻的理解能力。但具體能理解到什麼程度，因為Google用力過猛的演示讓大家都疑慮重重。而且它還缺了生成式AI的重要一環，生成視頻的能力。

實際上，在文生圖，ChatBot齊頭並進吸引走大家的主要注意力之時，文生視頻類軟件在今年也獲得了巨大的進步。11月PIKA 1.0的發布就引發了相當的關注，利用這個工具我們可以隨意用新的生成替換原視頻，或生成視頻中的任意內容。這些新進展主要歸功於Animatediff這個框架，它使得一部分運鏡限制下，生成視頻的閃爍和連貫性都得到了有效控制。

但目前文生視頻系統有三個相對重要的短板：1. 高連貫性內容長度難以超過3秒 2. 穩定內容對運鏡和動作仍然限制很大 3.生成現實性內容的能力不強，需要用Midjourney等工具輔助。

但其中部分問題已經能看到被解決的曙光了。比如說時長問題，近期Google Mind 發布的新建模方法VideoPoet，它從本質上是利用支持視頻的多模態，將文字和視頻進行令牌化（tokenized），從而用大語言模型擅長的自回歸模式去預測下一段視頻的內容。這與傳統的基於Diffusion（擴散）模型的文生圖框架並不相同，理論上它可以生成無限長、具有高度時間一致性的視頻。而在生成圖像真實度方面，李飛飛的團隊近期發表的模型W.A.L.T在生成擬真度上有了比較高的提升，已接近照片水准。

在Gemini發布時，業界基本預測下一代GPT-5也會是一個大一統的原生多模態模型，這就意味著用類似VideoPoet的技術GPT-5也可以實現視頻生成的能力，補齊這一短板。考慮到OpenAI自身在Diffusion方面的積累和GPT-5潛在的超強能力，生成視頻的質量應該也相對有保障。文生視頻按目前的技術積累看，就在爆發前夜。而GPT-5也許就是引爆這一領域的產品。

03 個性化水平再提升，從知識庫到工具的核心路徑

在OpenAI首屆開發者日上，真正的主角其實並非GPT-4 Turbo，而是GPTs。因為它第一次把個人化AI這一過去門檻頗高的產品落到個體層面，這樣才能真正實現個人化的AI。而只有個人化的AI才能滿足每個人最個性化的需求，成為私人助理。

但現在這個產品還存在著諸多問題，比如提供了個人數據庫後，GPT的回應還是會經常呈現出它原始的表達模式，在風格模仿上能力有限。另外出於隱私保護邏輯，GPTs只支持上傳內容和接入公共網絡工具API，無法完全利用本地數據。這些都在很大程度上限制了個性化AI的足夠“個性化”。另外GPTs目前的交互也非常依賴Prompt，缺乏UI類的支持。這類問題如果在新的一年解決，ChatGPT對於大多數人來講可能就不再是一個只有在搜索知識時好用的產品，而是一個真正可用的萬能工具了。

這條路上目前沒有其他的大玩家，因為決定個性化水平的基本上是模型能力。只要OpenAI保持著模型水平的領先，這一工具化領域的優先權他們就能隨時把控。對於一般用戶而言，如果能在原生模型軟件上完成任務，誰還會去用其他個性化工具呢？

在這篇文章發布的時候，奧特曼收集粉絲2024年願望清單的活動還在持續：“我們將繼續收集粉絲們的意見，並盡可能多地將它們納入考慮，當然也包括許多其他讓我們感到興奮不已但尚未提及的內容。”正如奧特曼在11月接受《時代》雜志采訪時所說：“這將是一個截然不同的世界。這是科幻小說長期以來向我們展示的世界。我想這是第一次，我們可以開始看到它的雛形。”在聖誕夜，我們可以一起期待，AI將在2024給我們帶來什麼樣的驚喜。