Gemini 音频理解

已验证的最小请求

curl "https://api.crazyrouter.com/v1beta/models/gemini-3.1-pro:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "inlineData": {
              "mimeType": "audio/wav",
              "data": "BASE64_WAV_DATA"
            }
          },
          {
            "text": "请返回 JSON，字段为 transcript、language、summary。"
          }
        ]
      }
    ],
    "generationConfig": {
      "maxOutputTokens": 512
    }
  }'

生产环境同类成功返回的关键形态：

{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": "```json\n{\n  \"transcript\": \"叮\",\n  \"language\": \"zh-CN\",\n  \"summary\": \"音频中包含一个简短的提示音。\"\n}\n```"
          }
        ]
      }
    }
  ]
}

请求要点

音频理解优先使用 inlineData

mimeType 与真实音频格式保持一致，例如 audio/wav、audio/mpeg

data 只填 Base64 内容，不要带 Data URL 前缀

如果你需要严格 JSON，可再叠加结构化输出约束

当前页面写的是已经跑通的短音频理解主路径。更长音频转写和语音生成请分别看现有 STT、TTS 页面；Realtime 当前不作为公开推荐用例展示。

​Gemini 音频理解

​已验证的最小请求

​请求要点

已验证的最小请求

请求要点