跳转到主要内容

Gemini 图片理解

POST /v1beta/models/{model}:generateContent
截至 2026-04-08,Crazyrouter 本站与本地 4000 端口复测表明:
  • gemini-2.5-pro 可以稳定通过 inlineData 读取图片并返回文本描述
  • 远程图片 URL 形态的 fileData.fileUri 在多条渠道上出现过抓取失败、上游返回体异常等问题
  • 因此图片理解在当前文档中以 inlineData 作为主推荐写法

已验证的最小请求

curl "https://crazyrouter.com/v1beta/models/gemini-2.5-pro:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "inlineData": {
              "mimeType": "image/png",
              "data": "BASE64_PNG_DATA"
            }
          },
          {
            "text": "请用一句中文描述这张图片里有什么。"
          }
        ]
      }
    ]
  }'
生产环境实际返回的关键形态:
{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": "这张图片展示了多种鲜艳色彩平滑过渡的渐变效果。"
          }
        ]
      }
    }
  ]
}

请求要点

  • 图片理解优先使用 inlineData
  • mimeType 与真实图片格式保持一致,例如 image/pngimage/jpeg
  • data 只填 Base64 内容,不要带 data:image/...;base64, 前缀
  • 如果你手里只有远程图片 URL,当前不要把它当成 Gemini 图片理解的首选主链路
如果你要做视频理解,请看 Gemini 视频理解。如果你要做音频理解,请看 Gemini 音频理解