🎨 Gemini 视觉生成

与传统的 Midjourney 不同，在 Gemini 体系里，Google 把所有的文本和图像甚至视频的理解能力汇聚在了一个统一端点中。通过 AILB 转换层，我们使其完全兼容 OpenAI 格式。

你甚至可以在对话模型（如 gemini-2.5-pro 或 gemini-3.1-flash-image 专研版）中发出生图指令。

推荐模型名: gemini-3.1-flash-image (速度极快，效果媲美主流底座) 或 gemini-2.5-pro。

基本使用：文生图 (Text to Image)

使用最标准的对话接口，提出生图需求。

Request Payload

{
  "model": "gemini-3.1-flash-image",
  "messages": [
    {
      "role": "user",
      "content": "A futuristic city with flying cars and tall glass skyscrapers around sunset."
    }
  ]
}

网关会自动将底层的返回结果，转译成标准的 OpenAI Image URL 响应格式。

Response

{
  "id": "chatcmpl-xxxxx",
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "![Generated Image](https://ailb.5884.cn/api/image/google/abc-123.jpg)\nHere is your image of a futuristic city..."
      }
    }
  ],
  // 如果客户端能够直接解析 base64 或者 URL 模式，也可以根据兼容返回的 standard images block 来取
  "images": [
     { "url": "https://ailb.5884.cn/api/image/google/abc-123.jpg" }
  ]
}

高阶使用：图生文或多模态控图 (Image to Image)

如果你需要对一张已有图片进行局部修改或“参照生成”，你可以把它的 Base64 编码送进去！

{
  "model": "gemini-3.1-flash-image",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "把图片里的猫变成一只赛博朋克风格的机器狗"
        },
        {
          "type": "image_url",
          "image_url": {
             "url": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ..."
          }
        }
      ]
    }
  ]
}

AILB 底层做了平滑的图文转换矩阵（详见架构设计文档），无需关心原厂 SDK 复杂而变扭的 parts 结构。

批量测试建议

如果你有大规模生图的工作流（如电商商品图自动处理脚本），建议：

不要超过 50 个并发（由于上游对高速调用的频率保护）。
始终捕获返回结果的 images[0].url，因为这是转存到我们的高速 CDN 上的图，不会因为上游 Google 的有效期到了而挂掉。

Gemini 生图最佳实践

🎨 Gemini 视觉生成

基本使用：文生图 (Text to Image)

高阶使用：图生文或多模态控图 (Image to Image)

批量测试建议

目录