| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

OpenAI新模型: 有情绪的AI出现了

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
5月14日凌晨,OpenAI终于发布了SamAltman提前造势的“Magic(魔法)”,主要包括三个重点发布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模态模型GPT-4o。


当模型变得越来越复杂,新的ChatGPT用户界面变得更加简洁,交互体验实际上变得更加自然和简单。




图注:ChatGPT新UI

桌面版GPT实时在线,能随时帮你解决写代码、读图表等任务,且从演示视频看上去,桌面版GPT可以直接通过视觉等方式“读懂”你的任务,这大大提高了端侧任务处理的想象力。

最重磅的是新的模型GPT-4o。根据OpenAI的官网解释,"o"代表“全知”,是朝着更自然的人类与计算机交互迈出的一步。

总结下来,新模型GPT-4o有三大“魔法”:

①多模态:接受文本、音频、图像作为组合输入,并生成任何文本、音频和图像的组合输出。同时,在多模态理解能力中,最让人感到惊奇的是,它能够识别人类的感情,并根据感情做出“有感情的反应”。

②几乎无延迟:它对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。

③可在电脑桌面运行,随时拥有一个AI队友,能随时帮你处理写代码、看图表等任务。

看完这三大特点,真的是直接感叹:“贾维斯”上线!“HER”闯进生活。从今天起,OpenAI给了你一个没延迟,有感情,可以随时看着你,无处不在的AI助理。还免费。本文的后半部分,将详细介绍GPT-4o解锁的新能力。


一、概览:GPT-4o是一个端到端的新模型

GPT-4o在英文文本和代码上与GPT-4Turbo的性能相匹配,在非英文文本上有了显着提升,同时在API上速度更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其更好。

根据OpenAI发布在官网的最新博客文章显示,在GPT-4o之前,我们使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是由三个独立的模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源,GPT-4,丢失了很多信息,它不能直接观察语调、多个说话者或背景噪音,也不能输出笑声、歌唱或表达情感。


GPT-4o,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。

GPT-4o并不是第一个端到端多模态模型。早在去年十二月,谷歌就已经发布了他们的Gemini模型。后续业界也一直判断OpenAI也会遵从大一统模型的模式,最终开发出端到端的多模态模式。

四个月过去了,OpenAI的大一统模型总算闪亮登场。还比谷歌的多了语音这一模态。

更重要的是,虽然大一统模型是谷歌先发,但OpenAI今天展示了一个更“真”的多模态模型到底应该达到什么水平。

二、新产品能力——魔法背后的魔法

1、魔法的基础:一体化多模态的多模态模型。传统文本、代码等推理能力没有质的提升,但音频视觉等能力达到新标准。

作为一个一体化的多模态模型,GPT-4o在传统基准测试中,文本推理和编程能力上达到GPT-4Turbo水平,而在多语言、语音识别、语音翻译、视觉理解等方面创下新纪录。多模态能力的平均分高,是这个模型“魔法”能力的基础。
觉得新闻不错,请点个赞吧     好新闻没人评论怎么行,我来说几句
上一页123456下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0402 秒 and 8 DB Queries in 0.0092 秒

    备案/许可证编号:苏ICP备11030109号