Gemini 音频理解
2026-04-08,Crazyrouter 本站与本地 4000 端口复测表明:
gemini-2.5-pro可以读取audio/wav- 当前已稳定跑通的主链路是
inlineData - 对短音频做转写、语言判断、摘要说明都可以直接通过文本提示完成
已验证的最小请求
请求要点
- 音频理解优先使用
inlineData mimeType与真实音频格式保持一致,例如audio/wav、audio/mpegdata只填 Base64 内容,不要带 Data URL 前缀- 如果你需要严格 JSON,可再叠加 结构化输出 约束