AI模型
谷歌的 AI 能力建立在一系列模型之上,覆盖推理、多模态、端侧、创作与专业行业场景。
模型目录
先判断任务,再选模型路线
模型页不只是列表,它更像一个选型总控台。你可以先判断自己更在意推理上限、响应速度、多模态输入、端侧运行还是行业专业性,再进入对应分组继续看。
每张卡片保留五行摘要和三个标签,方便快速区分定位、能力边界与适用任务;如果要做团队选型,建议结合模型对比页、API 模型页和订阅页一起看。
最新观察
Gemini 3.5 / Gemini Spark
复杂推理
Gemini 2.5 Pro / 3.1 Pro
高并发主力
Gemini 2.5 Flash / 3.1 Flash
端侧能力
Gemini Nano / Gemma
图像视频
Imagen / Veo / Omni
语音音乐
Chirp / Lyria
行业场景
MedLM 等垂直模型
先看旗舰模型
如果你做研究、复杂规划、代码协作或高价值问答,先看 Pro 系列,能更快理解能力上限。
先看默认主力
如果你做聊天、摘要、批处理和大规模接口调用,优先看 Flash 系列,更容易兼顾速度和成本。
再看专业模型
当任务转向图像、视频、语音、医疗或开源部署,再从更多模型组里挑更贴合的专门入口。
Gemini 系列(核心多模态模型)
围绕推理、多模态、端侧与实时交互形成完整谱系,适合从原型验证到生产落地的不同阶段。
Gemini 3.5
- - 围绕外界爆料与测试线索整理的下一代旗舰观察页。
- - 重点关注更强推理、编码、长任务规划与 Agent 协同方向。
- - 目前公开信息以泄露、内测与社区验证为主,仍需等待官方正式说明。
- - 适合跟踪 Google 下一阶段模型路线与产品布局变化。
- - 建议与 Gemini Spark、3.1 Pro、2.5 Pro 一起对照阅读。
Gemini 2.5 Pro
- - 旗舰级推理模型,复杂任务表现稳定。
- - Deep Think 模式适合长链路分析与规划。
- - 支持超长上下文,便于处理大文档和代码库。
- - 在数学、科学、编程类基准中持续领先。
- - 适合高价值问答、研究和复杂开发协作。
Gemini 2.5 Flash
- - 面向高频调用场景的高效主力模型。
- - 速度、成本与质量保持均衡,易于批量接入。
- - 支持思维预算控制,便于精细化分配算力。
- - 适合聊天、摘要、分类、轻量推理等任务。
- - 常用于 API 默认模型和高并发业务入口。
Gemini 2.0 Flash
- - 原生多模态模型,兼顾文本、图像与工具调用。
- - 支持图像生成、代理执行和实时响应体验。
- - 适合构建需要多输入协同的应用流程。
- - 在交互性与生产效率之间保持良好平衡。
- - 常见于助手、创作和流程自动化场景。
Gemini 3.1 Pro
- - 当前站内已整理的高阶旗舰模型,综合能力进一步增强。
- - 在代码、推理与复杂决策任务上更稳健。
- - 支持更细致的上下文理解与多步执行。
- - 适合企业级分析、创作和自动化工作流。
- - 适用于对效果上限要求更高的关键任务。
Gemini 3.1 Flash
- - 新一代高效模型,响应速度表现突出。
- - 支持大上下文处理与原生音频交互能力。
- - 适合实时助手、客服和前台交互应用。
- - 比旗舰模型更容易控制成本与时延。
- - 适合需要速度优先的大规模调用场景。
Gemini Nano
- - 面向移动设备与边缘终端的轻量模型。
- - 支持设备本地运行,降低网络依赖。
- - 在隐私敏感场景中具备更高可控性。
- - 适合离线摘要、键盘建议和本地智能能力。
- - 常用于手机、可穿戴设备与嵌入式终端。
Nano Banana
- - 面向图像编辑与内容再创作的热门模型。
- - 擅长局部修改、风格调整与细节保留。
- - 适合社媒图、海报、电商图等快速制作。
- - 能根据指令进行多轮细化和视觉修正。
- - 更适合创意团队和内容生产场景。
Gemini Omni
- - 统一视频模型,强调生成与编辑一体化。
- - 支持对话式剪辑、模板套用与镜头调整。
- - 可结合音频生成形成更完整的输出链路。
- - 适合营销视频、教程视频和演示片段制作。
- - 更适用于强调可控镜头语言的创作流程。
更多 AI 模型
覆盖文本、图像、音频、视频、代码与专业行业,让不同任务都能找到合适入口。
PaLM 2
- - Gemini 之前的重要文本模型体系。
- - 提供多种规模版本,方便按场景选择。
- - 擅长翻译、摘要、问答和通用文本任务。
- - 在谷歌早期生成式产品中承担核心角色。
- - 适合作为理解模型演进路线的参考入口。
Imagen
- - 谷歌文本到图像扩散模型代表作。
- - 图像保真度、构图质量与细节表达表现突出。
- - 适合广告图、概念图和品牌视觉草稿生成。
- - 对提示词细节和风格控制响应较好。
- - 适用于需要高质量静态画面的创作流程。
Veo
- - 谷歌代表性视频生成模型家族。
- - 支持更长镜头与更自然的运动表现。
- - 新版本可处理更高分辨率的视频输出。
- - 适合宣传片、叙事短片和视觉概念演示。
- - 常与 Flow 等产品共同构成视频生产链路。
Codey
- - 专注编程场景的代码生成模型。
- - 支持补全、解释、重构与调试建议。
- - 适合 IDE 辅助、代码问答与接口生成。
- - 能帮助开发者缩短原型开发与排错时间。
- - 更适用于研发团队效率增强场景。
Lyria
- - 面向音乐与声音创作的生成模型。
- - 可生成氛围音乐、旋律段落与音色素材。
- - 适合视频配乐、播客包装与创意声音实验。
- - 强调音频质感与风格变化能力。
- - 适合内容创作者和音乐探索型项目。
Chirp
- - 聚焦语音识别与转录任务的模型。
- - 支持多语言、多口音与长音频处理。
- - 适用于会议记录、字幕生成和客服质检。
- - 在语音转文本链路中具备较高实用价值。
- - 常作为语音类产品的基础能力模块。
MedLM
- - 面向医疗与健康场景的专业模型。
- - 适合医学文献理解、记录整理与辅助分析。
- - 强调专业术语识别和行业语境适配。
- - 适用于医院、研究机构和健康服务平台。
- - 更适合高门槛专业知识处理任务。
Gemma
- - 基于 Gemini 研究成果延展出的开源家族。
- - 更易于本地部署、微调和私有化适配。
- - 适合教学、实验和定制任务开发。
- - 社区生态活跃,方便构建二次创新。
- - 适用于强调灵活性与可控性的项目。
选型建议
把模型、调用方式和预算放在一起看
- - 面向生产接入时,建议把模型页与 `API 模型列表`、`Node.js SDK`、`安全指南` 联动阅读。
- - 如果你还不确定是否需要更高档位能力,可以继续看 `订阅计划` 页对照升级路径。
- - 如果你想先试效果,再写代码,通常从 `Google AI Studio` 开始效率更高。
Google AI 模型体系如何理解
Google AI 的模型体系不是一条单线,而是围绕推理强度、响应速度、多模态输入、端侧运行和成本效率形成多层组合。真正有用的阅读方式,不是先记住名称,而是先判断自己面对的是复杂分析、日常问答、内容创作、编程协作还是设备本地任务。
如果任务强调长文档阅读、复杂规划、代码理解或高质量最终输出,通常应优先看 Pro 路线;如果任务更看重速度、调用频率和成本控制,则 Flash 系列更容易成为长期主力。端侧、隐私、本地离线和轻量场景,则需要继续关注 Nano 或开源路线。
模型目录的重要性,在于它把抽象的模型名称翻译成可比较的能力边界。上下文长度、多模态支持、速度、调用入口和典型任务之间的关系越清晰,后续接入、试用和升级时的判断就越稳定。
阅读模型页时,建议同时结合功能页、API 文档和订阅页。模型页负责解释能力基础,功能页负责解释使用方式,API 文档负责解释接入方法,订阅页则帮助判断不同层级的使用门槛和资源投入。
阅读重点
- 先按任务复杂度筛模型,再看速度和成本。
- 长上下文、多模态和稳定性通常需要一起判断。
- 模型、功能、API、订阅四类页面适合联动阅读。
模型选型时最值得补充理解的内容
模型选择通常不是一次性动作,而是随着任务复杂度、团队规模和调用频率不断调整。很多项目在原型阶段用的是一个模型,但到了稳定运行阶段,会逐步把旗舰模型、速度型模型和特定模态模型分配到不同环节。
如果你经常处理资料总结、研究分析、图文理解、视频创作或代码辅助,最好不要只关注单一指标。模型真正的差别,往往体现在长任务中的稳定度、多轮追问下的上下文保持,以及面对复杂输入时的输出组织能力。
对普通用户来说,模型页也能帮助理解为什么不同产品入口体验会出现差异。很多时候,看起来像同一类 AI 功能,背后实际依赖的是不同档位的模型能力,因此阅读模型页本身就能减少很多模糊判断。
先看任务形态
先判断是研究、创作、编程、客服还是日常问答,再进入对应模型路线。
再看资源约束
预算、响应速度、调用频率和部署方式,往往会直接影响模型是否适合长期使用。
最后看组合方式
很多真实工作流并不是单模型完成,而是多模型分工协作。