谷歌追着OpenAI打Project Astra硬刚GPT-4oVeo对抗Sora_半岛·体育(中国)官方网站-BANDAO SPORTS

瑜伽常识 /MANUAL

谷歌追着OpenAI打Project Astra硬刚GPT-4oVeo对抗Sora

2024-05-16 14:33:58

浏览次数：次

返回列表

　　谷歌追着OpenAI打Project Astra硬刚GPT-4oVeo对抗Sora前一天OpenAI用GPT-4o把全世界掀翻，今天被提前截胡的谷歌，在一年一度的谷歌I/O开发者大会上开启反击！

　　展示了与GPT-4o 相似的语音视觉交互功能Gemini Live，还更进一步推出了比OpenAI等对手更激进的AI智能体Project Astra、还有对抗Sora的70秒视频生成模型Veo等等

　　此外，谷歌对拿手业务——搜索进行了AI化改造，全面更新了Gemini模型家族。另外还发布了高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox等等。

　　谷歌CEO皮查伊称目前有超150万开发人员在使用Gemini模型，谷歌拥有20亿用户的产品都在使用Gemini，谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动，3个月内已有超过100万人注册尝试。

　　Project Astra。这是一个还在研发中的AI Agent。当演示者打开手机摄像头，边走边问AI助手Project Astra捕捉到的现实场景中的问题。比如要求“看到能发出声音的东西就告诉我”，Gemini就会给出准确描述：“我看到一个音响发出声音。”接下来，测试者用红色剪头指向扬声器的顶部，再次问道，这个扬声器的部件叫什么？Gemini准确理解指令，并答出这是高音扬声器，能产生高频的声音。

　　Veo具备1080p的高质量，用户提示可以是文本、图像、视频等各种格式，还能捕捉到其中关于视觉效果和影像风格的各种细节描述。通过点击扩展按钮，用户就可以持续增加视频的时长，它的时长已经超过Sora达到了1分10秒。目前Veo已经开始在官网开放试用了。

　　升级后的Imagen 3能生成更多细节、光影丰富的图像。新模型对提示的理解能力，得到显著提升，可以从较长的提示中，捕获细节。如下图中，对狼的特征，背景颜色，画质质量等要求，Imagen 3一致地呈现了出来。它可以准确地渲染小细节，比如人手上的细微皱纹，以及复杂的纹理。

　　四、Music AI Sandbox：AI音乐创作工具，可以改变音乐的创作方式，谷歌与音乐家、词曲作者和制作人密切合作来帮助设计和测试这款工具。

　　五、Gemini 1.5 Pro，超长的上下文窗口，达到了100万tokens的级别，超过了目前所有的大语言模型，而且开放给个人用户使用。它的上下文token数将会达到2000K（200万）！相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

　　在这样的Gemini加持下，我们可以实现许多迅捷的功能。比如，作为父母需要了解孩子在学校的情况，就可以在Gmail中要求Gemini识别所有关于学校的电子邮件，然后帮你总结出要点。如果你错过了公司会议，但可以拿到一小时时长的会议录音，Gemini就能立刻帮你总结出会议要点。

　　现场谷歌演示了NotebookLM的音频概述功能，用户只需将文本资料输入进去，该软件即可基于Gemini Pro 1.5能力，生成丰富的音频内容素材。

　　另外谷歌还推出了轻量级模型Gemini 1.5 Flash，针对低延迟和低成本任务（聊天应用、从长文档提取数据等）进行了优化，成本效益更高，上下文窗口达100万个tokens半岛bandao体育。

　　在Gemini的加持下，谷歌搜索大变样。在搜索框下，会出现一个为你量身定做的AI总结。你的问题是什么样，它就会帮你做规划，展示出若干个卡片，让搜索信息以鲜明的方式被呈现出来。

　　基于此谷歌宣布推出AI Overviews工具，这次AI Overview即将发布的另一个重磅功能，就是多步骤推理。它能将用户输入的一个复杂问题分解成多部分，确定需要解决哪些问题，以及用什么顺序解决。

　　比如，如果想找到波士顿最好的瑜伽或普拉提工作室，它会直接搜出来结果，然后帮你整理好情况介绍和工作时间。只要一次搜索，所有需要的信息就自动呈现出来。

　　并且目前还支持用视频去搜索，比如，该怎么修这个唱片机？以前，我们需要进行一堆搜索，确定它的牌子、型号。现在，直接拍一个视频丢给谷歌，然后直接开口问：它的这个毛病是什么原因？谷歌用AI Overview，给出了最全面的信息。

　　七、画圈即搜功能：在你的手机或平板电脑上圈出复杂的物理问题，就能获得一步一步的指导，学习如何解决问题。

　　八、安卓版Gemini新功能：安卓系统上的Gemini变得更有帮助，更有环境意识；今年晚些时候支持将生成的图像拖放到Google Messages和Gmail中，还支持用户直接在设备上询问有关YouTube视频和PDF文件的问题。

　　谷歌要做“系统级AI”，把Gemini用在安卓系统底层。他们要让安卓成为体验谷歌AI的最强移动平台。

　　Gemini在系统级层面运行，因此用户不需要打开应用。同时Gemini有了上下文感知能力，可以提供更即的时帮助。

　　比如，Gemini可以帮用户在聊天中生成有趣的表情包图片，Gemini可以感知到用户在看视频，弹出提示，询问是不是想了解关于这个视频的问题，用户可以直接询问视频中的细节，Gemini可以直接从视频中找到答案。

　　谷歌强调Gemini只会在安卓上运行，而前段时间苹果被曝与OpenAI洽谈合作，iPhone将搭载ChatGPT，安卓阵营与苹果阵营的AI大战一触即发。

　　在Gemini APP中，谷歌推出Gemini Live功能，用户可通过文本、语音或影像多种方式进行交互，直接与大模型进行对话，并能够随时打断，可以打开摄像头使其“看到”周围的世界并实时响应。比如，你正在为一场面试做准备，只需要进入Live，Gemini就可以陪你一起做准备。

　　在Gemini的加持下，谷歌还推出Ask Photos的新功能。比如，如果付停车费时忘了自己的车牌号，就可以直接询问自己的车牌照片是哪个，不需要翻阅手机里的大量照片了。

　　虽然OpenAI凭借创业公司的灵活专注优势，屡屡抢占先发优势，每次都领先谷歌一步发布新品，但谷歌依然有着自己的独有优势，、除了产品研发，还拥有基础设施和运算能力，以及庞大的谷歌应用矩阵与数十亿的用户级别。在激烈的生成式AI竞赛中，最终赢家是谁值得期待。

上一篇：半岛·体育官方网站請問練瑜伽需要哪些道具

下一篇：半岛·体育中国官方网谷歌大招AI搜索引擎来了发布最强AI模型！

首页

关于半岛·体育

新闻中心

产品展示

留言板

瑜伽常识

联系半岛·体育

瑜伽常识 /MANUAL

谷歌追着OpenAI打Project Astra硬刚GPT-4oVeo对抗Sora

友情链接：

联系我们