访问 Gemini 官网

多模态使用

结合文本、图像、视频、音频等多种模态进行 AI 创作和分析

什么是多模态 AI

多模态 AI 可以同时理解和处理多种类型的数据（文本、图像、音频、视频）。 Gemini 是原生多模态模型，这意味着它不是分别用不同模型处理不同模态，而是在一个统一的架构中同时理解所有类型的输入。这让跨模态的推理和理解更加自然和准确。

模态组合

文本 + 图像

上传图片并提问，如"这张图片里有什么？"、"描述这张图片的风格"

文本 + 视频

上传视频并分析，如"总结这个视频的主要内容"、"提取关键帧"

文本 + 音频

上传音频并处理，如"转录这段播客"、"总结电话录音"

文本 + PDF

上传文档并分析，如"总结这份报告的要点"、"提取关键数据"

多文件混合

同时上传多个不同类型的文件进行综合分析

多模态任务怎么提问更有效

先说明目标

先告诉 Gemini 你是要总结、比较、提取、解释还是生成。

再说明输入之间关系

如果同时上传图片、文档和音频，要说清它们是互补、对照还是上下文。

多模态能力为什么重要

真实世界的信息本来就是混合的。用户并不会只处理文字，更多时候是图文一起看、视频里带字幕、音频里带情绪、PDF 里带图表。所以多模态能力的价值，在于让模型更接近真实工作场景，而不是只能处理单一文本。

对学习、办公、研究和内容生产来说，多模态模型通常能减少手工整理资料的步骤，也更容易从复杂素材中提取有效结论。

学习延伸

多模态使用为什么值得继续深入

多模态使用这一页的价值，不只是提供几段步骤或几个示例，而是帮助你把某个主题从“知道有这个功能”推进到“能稳定用出来”。很多看似简单的教程主题，真正决定体验好坏的往往不是模型本身，而是你是否理解任务表达、输入结构、修改方式和与其他能力的配合逻辑。

结合文本、图像、视频、音频等多种模态进行 AI 创作和分析当页面把步骤、适用范围、常见问题和相关入口讲得更清楚之后，用户就更容易把当前主题转成稳定习惯，而不是看完就忘。

教程详情页也适合承担连接作用。它既要把当前主题讲清楚，也要把你继续带到提示词、相关能力、产品入口或排错页。这样在真正操作时，遇到卡点也更容易找到下一步。

如果你希望当前主题真正变成自己工作流的一部分，建议不要只记住结论，而是尽量结合自己的真实任务复现一遍。只有在自己的资料、目标和约束下走通一次，教程内容才会真正留下来。

阅读重点

教程页的目标是把“知道”变成“会用”。
真实任务中的复现，比单纯阅读更重要。
教程页适合和提示词、排错、产品入口一起看。

延伸阅读

教程中心提示词技巧常见问题解决 Google AI Pro

继续练熟多模态使用时值得反复看的内容

很多教程主题第一次用时感觉顺利，但一旦换了任务、资料或目标，就会暴露出表达不清、输入不足或结果不稳定的问题。因此，教程内容最好配合多个真实示例一起练习。

如果你在使用过程中发现结果忽高忽低，通常不是能力本身完全无效，而是任务分解、限制条件、示例结构或输入资料还不够明确。教程页越厚，这些细节越容易被看清。

当一个主题已经进入你高频使用的流程后，可以再回头结合功能页、模型页和应用页，进一步优化使用方式。这种“先会用，再优化”的顺序通常更自然。

带着真实任务练

同一套方法放进自己的任务里复现，效果会比只看示例更稳定。

记录有效写法

把好用的提示词结构、步骤顺序和限制条件留下来，后续复用会更快。

遇到问题及时回查

排错页和提示词页，是教程主题最常见的两个补充入口。