OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场

机器心脏报告

机器之心编辑部

ChatGPT 推出仅17 个月后,OpenAI 就设计出了一个直接从科幻电影中走出来的超级人工智能。它完全免费,可供所有人使用。

太震撼了!

当各家科技公司仍在追赶大型机型的多模态能力,并将摘要文本和P 图等功能引入手机时,遥遥领先的OpenAI 却直接开始了这一大动作,该公司的漫威奥特曼首席执行官:和电影一样。

5月14日凌晨,OpenAI在首场“春季新品发布会”上发布了新一代旗舰机型GPT-4o及桌面应用,并展示了一系列新功能。这一次,技术颠覆了产品形态,OpenAI用行动给全球科技公司上了一课。

今天的主持人是OpenAI 首席技术官Mira Murati,今天我们主要讲三件事:

首先,未来OpenAI的产品将

优先发货

让更多的人能够使用它。

二、新发布的OpenAI

桌面版本的程序和更新的用户界面

,使用起来更简单、更自然。

第三,在GPT-4之后,出现了更大模型的新版本。

GPT-4o。 GPT-4o 的特别之处在于,我们可以以非常自然和交互式的方式向所有用户(包括免费用户)提供GPT-4 级别的智能。

ChatGPT 更新后,大型模型将能够接受文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合。 —— 这是交互的未来。

最近,ChatGPT已经开放无需注册即可使用,OpenAI的目标是让人们随时随地、无意义地使用它,并将ChatGPT集成到他们的工作流程中。这种人工智能现在可以提高生产力。

GPT-4o是未来人机交互范式的全新大型模型。它具有理解文本、音频和图像三种模式的能力,反应非常快,并且有情感。

现场,OpenAI 工程师拿出iPhone 展示了新机型的一些关键功能。最重要的是,实时语音对话。陈马克说道:“我是第一次参加现场会议,有点紧张,你先深呼吸一下吧?”

现在,深呼吸。

ChatGPT 很快回复道:“你不能这么做。你呼吸太多了。”

如果您以前使用过Siri 这样的语音助手,您会注意到这里的明显区别。首先,AI可以随时打断对话并继续对话,而无需等待对话结束。其次,模型的反应速度比人类快得多,因此无需等待。第三,模型充分理解人类的情感,能够自行表达各种情感。

其次是视觉能力。另一位工程师在纸上写了一个方程式,ChatGPT 没有直接给出答案,而是要求提供有关如何做的分步说明。它似乎在教人们提问方面具有巨大的潜力。

ChatGPT 说,每当你在数学上遇到困难时,我都会为你提供帮助。

接下来,尝试一下GPT-4o 的编码功能。这是一些代码。在您的计算机上打开ChatGPT 的桌面版本,让他们解释代码的用途以及某些功能的用途。

输出代码的结果是一张温度图,ChatGPT可以用一句话回答关于这张图的所有问题。

您可以回答哪个月份最热以及Y 轴的单位是摄氏度还是华氏度。

OpenAI还实时解答了部分X/Twitter网友的提问。例如,实时语音翻译可让您使用手机作为翻译器,相互翻译西班牙语和英语。

还有人问,ChatGPT能识别你的表情吗?

正在加载视频.

看来GPT-4o 已经具备了实时视频理解的能力。

现在让我们仔细看看OpenAI今天发布的核弹。

通用型GPT-4o

首先是GPT-4o。这里,o 代表Omnimodel。

OpenAI 首次将所有模态集成到一个模型中,大大提高了大规模模型的实用性。

OpenAI 首席技术官Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但在GPT-4 的基础上构建了改进的文本、视觉和音频功能,该公司表示将在其产品中“迭代”实施。未来几周的产品。

“GPT-4o 的基本原理涵盖音频、文本和视觉,”Muri Murati 说。 “我们知道这些模型变得越来越复杂,但我们希望交互体验更加自然和简单,请集中注意力。”

GPT-4o 对英文文本和代码的性能与GPT-4 Turbo 的性能相当,但对非英文文本的性能明显更好,并且API 更快且便宜50%。与之前的型号相比,GPT-4o 具有特别好的视觉和听觉理解能力。

它可以在短短232 毫秒内响应语音输入,平均响应时间为320 毫秒,与人类相似。在GPT-4o 发布之前体验过ChatGPT 语音对话功能的用户的平均ChatGPT 延迟为2.8 秒(GPT-3.5) 和5.4 秒(GPT-4)。

该语音响应模型是三个独立模型的管道。一个简单模型将语音转换为文本,GPT-3.5 或GPT-4 接收文本并输出文本,第三个简单模型将该文本转换为语音。然而,OpenAI 发现这种做法意味着GPT-4 丢失了大量信息。例如,该模型无法直接观察音高、多个扬声器、背景噪音,也无法输出笑声、歌唱或情绪表达。

借助GPT-4o,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型。这意味着所有输入和输出都由同一神经网络处理。

“从技术角度来看,OpenAI 发现了一种将音频直接映射到音频作为第一级模态并将视频实时发送到Transformer 的方法,其中包括对标记化和架构的新研究,但总体而言是数据和系统。事情)这是一个优化问题,”Nvidia 科学家Jim Fan 评论道。

GPT-4o 支持跨文本、音频和视频进行实时推理。这是迈向更自然的人机(甚至人机)交互的重要一步。

视频链接:https://mp.weixin.qq.com/s __biz=MzA3MzI4MjgzMw==mid=2650917888idx=1sn=7d7cf9a41642541b5df64d0c8fb5b76achksm=84e4087eb3938168382fadd785ad8eb0 02cda 1863fbe811697c037508985dafb8558331058token=196273776lang=zh_CN#rd

OpenAI 总裁Greg Brockman 也在网上“完成了工作”,让两个GPT-4o 不仅可以实时交谈,还可以即兴创作歌曲。旋律有点“感人”,但歌词却掩盖了一种装饰风格。房间和人物服装的特点,期间发生的插曲等。

视频链接:https://mp.weixin.qq.com/s __biz=MzA3MzI4MjgzMw==mid=2650917888idx=1sn=7d7cf9a41642541b5df64d0c8fb5b76achksm=84e4087eb3938168382fadd785ad8eb0 02cda 1863fbe811697c037508985dafb8558331058token=196273776lang=zh_CN#rd

此外,GPT-4o 比任何现有模型都能更好地理解和生成图像,使许多以前不可能完成的任务变得“简单”。

例如,您可以要求您的杯垫上印有OpenAI 徽标。

经过这段时间的技术攻关,OpenAI 应该已经彻底解决了ChatGPT 的字体生成问题。

同时,GPT-4o还具备生成3D视觉内容的能力,可以根据生成的六张图像进行3D重建。

GPT-4o 可以手写风格格式化的诗歌包括:

它还可以处理更复杂的布局样式。

使用GPT-4o,您只需输入几段文字即可获得一系列连续的漫画故事板。

下面的玩法应该会让很多设计师感到惊讶。

这是一张由两张死前照片演变而来的风格化海报。

还有一些利基功能,例如“将文本转换为艺术字”。

GPT-4o性能评估结果

OpenAI技术团队的一位成员表示:

对于更难的提示集——,尤其是在编码方面,GPT-4o 与OpenAI 之前的最佳模型相比显示出特别显着的性能改进。

具体来说,GPT-4o 在多个基准的文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能方面达到了新的高度。

改进推理:GPT-4o 在5-shot MMLU(常识问题)上取得了87.2% 的新高分。 (注:Llama3 400b 仍在训练中)

音频ASR 性能:与Whisper-v3 相比,GPT-4o 显着提高了所有语言(尤其是资源匮乏的语言)的语音识别性能。

GPT-4o 在语音翻译方面提供了新的尖端性能,在MLS 基准测试中优于Whisper-v3。

M3Exam 基准是多语言和视觉评估基准,由多个国家标准化测试的多项选择题组成,并包含图表。 GPT-4o 在所有语言基准测试中都比GPT-4 更强大。

未来,该模型的功能将得到改进,以实现更自然的实时语音对话以及通过实时视频与ChatGPT 进行对话。例如,用户可以向ChatGPT 观看现场体育比赛并要求解释规则。

ChatGPT 用户可以免费使用更多高级功能

ChatGPT 每周有超过1 亿人使用,OpenAI 表示,从今天开始,ChatGPT 上开始免费推出GPT-4o 文本和图像功能,将Plus 用户可用的消息限制提高了5 倍。

当您打开ChatGPT 时,您会看到GPT-4o 已经可用。

ChatGPT 免费用户现在在使用GPT-4o 时可以访问以下功能: 体验GPT-4 级别的智能并从模型和网络中获取响应。

此外,免费用户还有以下选项:——

分析数据并创建图表。

谈谈你的照片:

上传文件以帮助总结、创作或分析。

发现并使用GPT 和GPT App Store。

使用记忆功能来创造更有帮助的体验。

但是,免费用户可以使用GPT-4o 发送的消息数量根据使用情况和需求而受到限制。当达到限制时,ChatGPT会自动切换到GPT-3.5,用户可以继续对话。

此外,OpenAI 将在未来几周内发布ChatGPT Plus 语音模式GPT-4o Alpha 的新版本,并通过API 向一小群值得信赖的合作伙伴添加新的音频和视频功能。某物。

当然,通过多个模型测试和迭代,GPT-4o在所有模式下都存在一定的局限性。尽管存在这些缺陷,OpenAI 表示正在努力改进GPT-4o。

GPT-4o音频模式的开放无疑会带来各种新的风险。关于安全问题,GPT-4o通过过滤训练数据和训练后调整模型行为等技术将安全性内置到其跨模态设计中。 OpenAI 还创建了一个新的安全系统来保护音频输出。

新的桌面应用程序简化了用户工作流程

对于免费和付费用户,OpenAI 还发布了适用于macOS 的新ChatGPT 桌面应用程序。用户可以使用简单的键盘快捷键(Option + Space)立即询问ChatGPT 问题,甚至可以截取屏幕截图并直接在应用程序内进行讨论。

用户还可以直接从计算机与ChatGPT 进行音频对话,只需单击桌面应用程序右下角的耳机图标即可开始音频对话。 GPT-4o 音频和视频功能将在未来推出。

OpenAI 今天向Plus 用户推出了macOS 应用程序,并计划在未来几周内更广泛地使用它。此外,OpenAI 计划在今年晚些时候发布Windows 版本。

奥特曼:你是开源的,我们免费

发布后,OpenAI 首席执行官Sam Altman 发表了一段时间以来的第一篇博文,介绍了推动GPT-4o 工作背后的过程。

在今天的公告中,我想强调两件事。

首先,我们使命的一个关键部分是免费(或以折扣价)向人们提供强大的人工智能工具。我们非常自豪地宣布ChatGPT 免费提供世界上最好的模型,没有任何广告或任何东西。

当我们创立OpenAI 时,我们最初的愿景是创造人工智能并利用它以多种方式造福世界。现在看来事情已经发生了变化,我们将创造人工智能,其他人将用它创造各种令人惊奇的事物,我们都将从中受益。

当然,我们是一家公司,并且(希望)会付费发明一些东西,这将使我们能够为数十亿人提供免费且出色的人工智能服务。

其次,新的音频和视频模式是我用过的最好的计算界面。感觉就像电影中的人工智能,但令我有点惊讶的是它竟然是真实的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。

虽然最初的ChatGPT 暗示了语言界面的可能性,但这个新的(GPT-4o 版本)感觉根本不同。 —— 快速、智能、有趣、自然、便捷。

与计算机交互对我来说从来都不是自然而然的,这是事实。当您添加(可选)个性化、访问个人信息以及让人工智能代表您执行操作等功能时,您将能够使用计算机执行比以往更多的操作,这真是令人兴奋的未来。

最后,非常感谢为实现这一目标而付出巨大努力的团队。

值得注意的是,奥特曼上周在接受采访时表示,普及基本收入很难实现,但“免费和普及的基本计算”是可能的。未来,每个人都可以免费获得GPT的算力来使用、转售、捐赠。

“随着人工智能变得更加复杂并融入到我们生活的各个方面,拥有像GPT-7 这样的大型语言模型单元变得比金钱更有价值,并让我们能够掌握一些生产力。能够把它放进去,”奥特曼解释道。

GPT-4o的发布可能是OpenAI在这方面努力的开始。

是的,这只是开始。

最后但并非最不重要的一点是,今天在OpenAI 博客上发布的“猜猜5 月13 日公告”视频几乎与明天谷歌I/O 大会的热身视频完全冲突。这对于谷歌来说绝对是一记耳光。看完今天的OpenAI 发布后,Google 是否感到压力很大?

参考内容:

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

https://blog.samaltman.com/gpt-4o

https://www.businessinsider.com/openai-sam-altman-universal-basic-venue-idea-compute-gpt-7-2024-5

本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/678314.html

(0)
上一篇 2024年6月4日
下一篇 2024年6月4日

相关推荐

  • 和平精英18赛季如何获得雪山精英?

    和平精英18赛季如何获得雪山精英? 和平精英中的皮肤雪山精因为适合隐藏,所以被玩家称为老六服,人人都想获得它。那么,有什么办法呢? 在和平小店开启的时间,准备充足的点劵,到里面找到雪山精英,点击购买。 打开和平精英中的邮件,领取,点开仓库,穿上雪山精英,这就获得了它。 和平精英如何获得雪山精英口令码? 可以通过参与和平精英官方线下活动或观看直播等方式获得雪山…

    游戏快讯 14分钟前
  • 和平精英暗夜危机怎么玩?

    和平精英暗夜危机怎么玩? 1 需要通过队伍合作,生存到天亮,并击败所有敌人。2 玩家需要注意补给箱的位置,拾取合适的武器和装备来提高自身的存活能力。3 在暗夜模式中,玩家需要时刻留意敌人的动向和行进路线,并密切配合队友进行作战。4 此外,玩家应该注意掌握地形,避免暴露自己的位置,同时要适时进行战术转换。5 最重要的是,保持耐心和冷静,集中精力,不要轻易放弃,…

    游戏快讯 1小时前
  • 和平精英如何进行拜师?

    和平精英如何进行拜师? 和平精英还没有师徒系统,你可以关注和平精英的官方,如果和平精英出师徒系统的话,你就可以第一时间知道了。 和平精英申诉成功案例? 要是官方误封的可以通过正常的申诉成功的,到要是开挂,骂人,被封,那就只能等待了 和平精英被别人开挂如何申诉? 和平精英被别人开挂申诉的详细方法: 1、打开手机上的和平精英登录进入。 2、点击右下角的设置图标进…

    游戏快讯 3小时前
  • 和平精英圣诞皮肤返场多久?

    和平精英圣诞皮肤返场多久? 一周 去年临近双十一的时候,和平精英当中也有类似的推出六款人气皮肤返场的活动,当时的持续时间是从11月9号(周六)到11月17号(周日),大概一周的时间,所以今年的双十一皮肤返场估计也是会持续一周 。 和平精英2022圣诞皮肤返场时间? 5月20日 5月20日。2022年5月20日晚上7点,和平精英2022年520和平小店返场皮肤…

    游戏快讯 4小时前
  • 攻城掠地怎么玩?新手入坑指南

    攻城掠地新手7天怎么玩?萌新新区入坑玩法指南攻城掠地新手7天攻略,攻城掠地新手怎么玩,攻城掠地新手7天玩法不得不说,对于新手玩家,官网还是非常给力的,因为只要清楚攻城掠地新手7天怎么玩,那么就会知道,即便是零氪玩家,也能够轻松的获取到强大的战斗力,主线将会更快的进行推进。攻城掠地新手7天攻略攻城掠地新手7天快速入门指南,希望能够给大家帮助,详情如下:第1天:…

    游戏快讯 5小时前