跳转到主要内容

Gemini 多模态理解

Gemini 模型支持理解图片、视频和音频等多种模态的内容。
POST /v1beta/models/{model}:generateContent

图片理解

curl "https://crazyrouter.com/v1beta/models/gemini-2.5-flash:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "详细描述这张图片的内容"},
          {
            "inlineData": {
              "mimeType": "image/jpeg",
              "data": "/9j/4AAQSkZJRgABAQAA..."
            }
          }
        ]
      }
    ]
  }'

视频理解

通过内联数据或文件 URI 发送视频:
curl "https://crazyrouter.com/v1beta/models/gemini-2.5-flash:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "描述这个视频的内容,列出关键场景"},
          {
            "inlineData": {
              "mimeType": "video/mp4",
              "data": "AAAAIGZ0eXBpc29t..."
            }
          }
        ]
      }
    ]
  }'

音频理解

curl "https://crazyrouter.com/v1beta/models/gemini-2.5-flash:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "转录这段音频的内容,并总结主要观点"},
          {
            "inlineData": {
              "mimeType": "audio/mp3",
              "data": "SUQzBAAAAAAAI1RTU0..."
            }
          }
        ]
      }
    ]
  }'

多图对比

Python
response = model.generate_content([
    "比较这三张产品图片,分析各自的设计特点和优缺点",
    {"mime_type": "image/jpeg", "data": image1_data},
    {"mime_type": "image/jpeg", "data": image2_data},
    {"mime_type": "image/jpeg", "data": image3_data}
])

支持的媒体格式

类型支持的格式
图片JPEG、PNG、GIF、WebP、BMP
视频MP4、AVI、MOV、MKV、WebM
音频MP3、WAV、FLAC、AAC、OGG
视频和音频文件通过内联数据发送时,文件大小受请求体限制。对于大文件,建议先上传到可访问的 URL,然后通过 fileData 引用。
视频和音频处理消耗的 Token 远高于纯文本。一分钟的视频可能消耗数千个 Token。