| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

馬斯克: 馬斯克加入 "視覺模型"是下個"大語言模型"?


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
谷歌的研究人員Jack Clark在論文中寫道:“我們認為,正如自然語言處理(NLP)從特定任務模型轉向通用模型一樣,機器視覺領域也可能通過視頻模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”


他們將視頻逐幀生成的過程類比為語言模型中的“思維鏈”(chain-of-thought),並稱之為“幀鏈”(chain-of-frames),認為這使得視頻模型能夠跨越時空進行推理。

這一發現意義深遠,它暗示著通過發展更智能的視頻模型,人們或許能夠獲得能力極強的機器人“代理”(agent)。


前景與現實:高昂的成本與“願景”的缺失

盡管前景誘人,但通往世界模型的道路並非坦途。目前,該技術仍面臨巨大的技術挑戰,其中最主要的是為模擬真實世界尋找和處理足夠訓練數據的成本極其高昂。


與此同時,業界也存在對AI作用的冷靜審視。熱門游戲《博德之門3》的開發商Larian Studios的發行主管Michael Douse本周在X上表示,AI無法解決游戲行業的“大問題”,即“領導力和願景”。


他補充說,行業需要的不是“更多由數學方式生產、經過心理學訓練的游戲循環”,而是對世界更多樣化的表達。這代表了一種普遍的觀點:純粹的技術突破本身,並不能保證創造出能夠真正打動人心的商業產品。

盡管挑戰重重,但xAI的入局無疑為世界模型的競賽再添一把火。

AI的焦點正不可逆轉地從純粹的數字信息處理,轉向對復雜物理現實的模擬與交互。視覺模型是否能復刻大語言模型的輝煌,迎來屬於自己的“GPT時刻”,不僅將決定下一代AI霸主的歸屬,更可能重塑我們與數字及物理世界的根本關系。
覺得新聞不錯,請點個贊吧     還沒人說話啊,我想來說幾句
上一頁12下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0410 秒 and 3 DB Queries in 0.0012 秒