2025年4月23日,谷歌正式发布Gemini 2.5 Pro模型的多模态功能更新,这标志着人工智能领域又一次重大突破。

据悉,此次更新后的Gemini 2.5 Pro支持文本、图像、音频和视频的综合理解与生成。用户可以通过简单的自然语言指令,让AI分析复杂的视频内容、生成带有特定风格的图像,甚至进行跨模态的内容转换。

谷歌DeepMind首席执行官表示,多模态能力是通用人工智能的关键里程碑。与之前的版本相比,Gemini 2.5 Pro在视觉理解准确率上提升了23%,音频处理延迟降低了40%。

业内专家指出,这一技术的成熟将彻底改变内容创作、教育培训、医疗诊断等多个行业。目前已有超过500家企业开始测试集成该功能,预计在第二季度末将面向全球开发者全面开放API接口。

与此同时,OpenAI和Anthropic也在加速布局多模态领域,人工智能领域的竞争日趋白热化。分析师预测,2025年全球多模态AI市场规模将突破120亿美元。

发表评论

了解 风意阁 fenyig.com 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读