2024谷歌I/O开发者大会揭秘：Gemini模型如何重塑AI未来

网页客服,欢迎咨询

联系我们

周一至周五：09:00-17:30
周六至周日：10:00-16:00

唐先生：15603012345

2024谷歌I/O开发者大会揭秘：Gemini模型如何重塑AI未来

2024-05-15 20:30:35 71

管理

在5月14日的谷歌I/O开发者大会上，Google和Alphabet首席执行官Sundar Pichai分享了公司最新的AI进展，重点介绍了Gemini——一个原生多模态模型，标志着AI技术从处理单一数据类型向跨文本、图像、视频、代码等多种数据类型推理的重大飞跃。

Gemini模型：跨模态推理的里程碑

自一年前首次公开Gemini计划以来，Google已经推出了首批功能强大的Gemini模型，这些模型在多模态基准测试中表现出色。而随后推出的Gemini 1.5 Pro更是在处理长上下文方面取得了突破，能够稳定地处理多达100万个令牌的数据，远超目前其他大规模基础模型的能力。

Pichai强调，Gemini的功能不仅仅局限于实验室研究，而是已经广泛应用于实际开发中。目前，超过150万的开发者正在使用Google的各种工具中的Gemini模型，用于调试代码、获取新见解以及构建下一代AI应用。

GoogleI/O开发者盛会揭秘：Gemini模型如何重塑AI未来

Pichai还透露，Google已经将Gemini的突破性功能整合到多款产品中，包括搜索、Photos、Workspace和Android等，为用户带来全新的体验。例如，在Google搜索中推出的AI Overviews体验，以及即将推出的Ask Photos功能，都展示了Gemini在处理多模态数据方面的强大能力。

搜索革命：AI Overviews与Ask Photos引领新潮流

值得注意的是，AI Overviews体验是Google搜索领域的一大创新，它能够根据用户的查询提供详细、结构化的信息，让用户以全新的方式探索知识。而Ask Photos则允许用户通过自然语言与照片库中的图像进行交互，获取关于特定时刻或事件的详细信息。

Pichai举例说道，假设你在停车场缴费时，却想不起自己的车牌号。以往，你需要在 Photos 中搜索关键词，然后翻找多年积累的照片来寻找车牌。但现在，你只需直接询问 Photos 即可。它能够识别出经常出现的车辆，通过多方信息交叉验证判断出哪一辆是你的，并提供车牌号码。

多模态与长上下文：解锁知识的新维度

Gemini模型的多模态和长上下文能力是其核心优势之一。多模态允许模型理解不同类型的数据输入，并找到它们之间的联系；而长上下文则使模型能够处理大量信息，从而提供更准确、更全面的答案。这种能力使得Gemini在处理复杂任务时表现出色，如总结长电子邮件、分析大量文档等。

在此当中，Gemini 1.5 Pro的推出标志着Google在处理长上下文方面的重大进步。Gemini 1.5 Pro的多模态特性使其能够同时处理文本、图像、视频和代码等多种数据类型，而长上下文能力则允许模型在更广阔的范围内捕捉信息。这些特性在Google Workspace中得到了充分应用，为用户提供了前所未有的便利。

在Gmail中，Gemini 1.5 Pro能够智能地识别和分析邮件内容，甚至包括PDF等附件，为用户提供关键要点和待办事项的摘要。对于忙碌的家长来说，这意味着能够轻松掌握孩子在学校的最新动态，不错过任何重要信息。

GoogleI/O开发者盛会揭秘：Gemini模型如何重塑AI未来

此外，Gemini 1.5 Pro还能在Google Workspace的其他应用中发挥巨大作用。例如，在会议录音中，它能够快速提取核心内容，帮助用户节省宝贵时间。在文档编辑方面，它不仅能够提供语法和拼写检查，还能根据上下文智能推荐相关内容和格式。

NotebookLM与AI智能体：引领新一代I/O体验

除了Google Workspace外，Pichai表示，Gemini 1.5 Pro还在NotebookLM等应用中展示了其多模态能力的潜力。NotebookLM中的音频概述功能，通过Gemini 1.5 Pro生成个性化和交互式音频对话，为用户提供了全新的学习和交流方式。

更进一步的是，Google正致力于开发AI智能体，这些能够推理、规划和记忆的智能系统有望在未来帮助用户完成更多复杂任务。以购物退货为例，AI智能体能够自动处理整个退货流程，从搜索收据到填写退货表格，再到安排取件服务，一切尽在掌握。

新一代AI基础设施：Trillium TPU发布

为了支持Gemini 1.5 Pro等先进AI模型的发展，Google宣布推出第六代张量处理单元（TPU）——Trillium。与上一代TPU相比，Trillium在性能上提升了4.7倍，将为AI训练和推理提供前所未有的计算能力。这一重要进展将进一步加速AI技术的发展和应用。

Pichai公开表示，为了充分发挥AI的潜力，Google不仅在模型和技术上进行创新，还在基础设施方面进行了大规模升级。通过采用液体冷却系统、部署庞大的网络规模以及提供多样化的计算资源，Google正致力于构建一种开创性的AI超级计算机架构，以应对更复杂的挑战。

隐私与安全：负责任的AI发展路径

此外，在推进AI技术的同时，Google也高度重视隐私和安全问题。通过AI辅助红队测试等尖端技术，Google不断改进其模型以应对潜在的安全威胁。此外，Google还将SynthID水印工具扩展到文本和视频领域，以帮助用户识别AI生成的内容。

搜索功能的革命性变革

Pichai在本次大会上还强调了Google搜索在AI时代的变革。他表示，Gemini时代的搜索将结合基础设施优势、最新的AI功能和对信息质量的高标准，为用户提供更加智能和个性化的搜索结果。这一变革将使得搜索不再仅仅是获取信息的工具，而是成为用户工作和生活的得力助手。

GoogleI/O开发者盛会揭秘：Gemini模型如何重塑AI未来

因此，基于提升搜索工具的AI的渗透率，化Pichai还宣布了名为Live的全新Gemini体验，用户可以通过语音与Gemini进行深入对话。此外，Google还将Gemini模型整合到Android系统中，推出了Gemini Nano多模态模型，为用户提供更加便捷和智能的移动设备体验。

上一页：海顺新材因财报数据不准确被出具警示函上市公司信披质量再度引发关注下一页：A股新宠合成生物遇冷，莱茵生物等多家企业股价跌超5%

全部评论(0)