风意阁 fenyig.com

多源信息融合分析全网精品数据收集网创项目聚合平台

谷歌Gemini上线多模态功能引发热议

2026 年 4 月 23 日 14:42

2025年4月23日，谷歌正式发布Gemini 2.5 Pro模型的多模态功能更新，这标志着人工智能领域又一次重大突破。

据悉，此次更新后的Gemini 2.5 Pro支持文本、图像、音频和视频的综合理解与生成。用户可以通过简单的自然语言指令，让AI分析复杂的视频内容、生成带有特定风格的图像，甚至进行跨模态的内容转换。

谷歌DeepMind首席执行官表示，多模态能力是通用人工智能的关键里程碑。与之前的版本相比，Gemini 2.5 Pro在视觉理解准确率上提升了23%，音频处理延迟降低了40%。

业内专家指出，这一技术的成熟将彻底改变内容创作、教育培训、医疗诊断等多个行业。目前已有超过500家企业开始测试集成该功能，预计在第二季度末将面向全球开发者全面开放API接口。

与此同时，OpenAI和Anthropic也在加速布局多模态领域，人工智能领域的竞争日趋白热化。分析师预测，2025年全球多模态AI市场规模将突破120亿美元。