| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

OpenAI新模型: 有情緒的AI出現了

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
5月14日凌晨,OpenAI終於發布了SamAltman提前造勢的“Magic(魔法)”,主要包括三個重點發布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模態模型GPT-4o。


當模型變得越來越復雜,新的ChatGPT用戶界面變得更加簡潔,交互體驗實際上變得更加自然和簡單。




圖注:ChatGPT新UI

桌面版GPT實時在線,能隨時幫你解決寫代碼、讀圖表等任務,且從演示視頻看上去,桌面版GPT可以直接通過視覺等方式“讀懂”你的任務,這大大提高了端側任務處理的想象力。

最重磅的是新的模型GPT-4o。根據OpenAI的官網解釋,"o"代表“全知”,是朝著更自然的人類與計算機交互邁出的一步。

總結下來,新模型GPT-4o有三大“魔法”:

①多模態:接受文本、音頻、圖像作為組合輸入,並生成任何文本、音頻和圖像的組合輸出。同時,在多模態理解能力中,最讓人感到驚奇的是,它能夠識別人類的感情,並根據感情做出“有感情的反應”。

②幾乎無延遲:它對音頻輸入的響應時間最短為232毫秒,平均為320毫秒,這與人類在對話中的響應時間相似。

③可在電腦桌面運行,隨時擁有一個AI隊友,能隨時幫你處理寫代碼、看圖表等任務。

看完這三大特點,真的是直接感歎:“賈維斯”上線!“HER”闖進生活。從今天起,OpenAI給了你一個沒延遲,有感情,可以隨時看著你,無處不在的AI助理。還免費。本文的後半部分,將詳細介紹GPT-4o解鎖的新能力。


一、概覽:GPT-4o是一個端到端的新模型

GPT-4o在英文文本和代碼上與GPT-4Turbo的性能相匹配,在非英文文本上有了顯著提升,同時在API上速度更快,成本降低了50%。與現有模型相比,GPT-4o在視覺和音頻理解方面尤其更好。

根據OpenAI發布在官網的最新博客文章顯示,在GPT-4o之前,我們使用語音模式與ChatGPT對話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為了實現這一點,語音模式是由三個獨立的模型組成的流水線:一個簡單的模型將音頻轉錄為文本,GPT-3.5或GPT-4接收文本並輸出文本,第三個簡單的模型將該文本再轉換回音頻。這個過程意味著主要的智能來源,GPT-4,丟失了很多信息,它不能直接觀察語調、多個說話者或背景噪音,也不能輸出笑聲、歌唱或表達情感。


GPT-4o,是單獨訓練的新模型,可以端到端地處理文本、視覺和音頻,這意味著所有輸入和輸出都由同一個神經網絡處理。

GPT-4o並不是第一個端到端多模態模型。早在去年十二月,谷歌就已經發布了他們的Gemini模型。後續業界也一直判斷OpenAI也會遵從大一統模型的模式,最終開發出端到端的多模態模式。

四個月過去了,OpenAI的大一統模型總算閃亮登場。還比谷歌的多了語音這一模態。

更重要的是,雖然大一統模型是谷歌先發,但OpenAI今天展示了一個更“真”的多模態模型到底應該達到什麼水平。

二、新產品能力——魔法背後的魔法

1、魔法的基礎:一體化多模態的多模態模型。傳統文本、代碼等推理能力沒有質的提升,但音頻視覺等能力達到新標准。

作為一個一體化的多模態模型,GPT-4o在傳統基准測試中,文本推理和編程能力上達到GPT-4Turbo水平,而在多語言、語音識別、語音翻譯、視覺理解等方面創下新紀錄。多模態能力的平均分高,是這個模型“魔法”能力的基礎。
不錯的新聞,我要點贊     這條新聞還沒有人評論喔,等著您的高見呢
上一頁123456下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0338 秒 and 8 DB Queries in 0.0024 秒

    備案/許可證編號:蘇ICP備11030109號