P
PICOPAPA
图片生成

Gemini 生图最佳实践

解析并利用好 Google Gemini 最前沿的大众生图体验

🎨 Gemini 视觉生成

与传统的 Midjourney 不同,在 Gemini 体系里,Google 把所有的文本和图像甚至视频的理解能力汇聚在了一个统一端点中。通过 AILB 转换层,我们使其完全兼容 OpenAI 格式。

你甚至可以在对话模型(如 gemini-2.5-progemini-3.1-flash-image 专研版)中发出生图指令。

推荐模型名: gemini-3.1-flash-image (速度极快,效果媲美主流底座) 或 gemini-2.5-pro

基本使用:文生图 (Text to Image)

使用最标准的对话接口,提出生图需求。

Request Payload
{
  "model": "gemini-3.1-flash-image",
  "messages": [
    {
      "role": "user",
      "content": "A futuristic city with flying cars and tall glass skyscrapers around sunset."
    }
  ]
}

网关会自动将底层的返回结果,转译成标准的 OpenAI Image URL 响应格式

Response
{
  "id": "chatcmpl-xxxxx",
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "![Generated Image](https://ailb.5884.cn/api/image/google/abc-123.jpg)\nHere is your image of a futuristic city..."
      }
    }
  ],
  // 如果客户端能够直接解析 base64 或者 URL 模式,也可以根据兼容返回的 standard images block 来取
  "images": [
     { "url": "https://ailb.5884.cn/api/image/google/abc-123.jpg" }
  ]
}

高阶使用:图生文或多模态控图 (Image to Image)

如果你需要对一张已有图片进行局部修改或“参照生成”,你可以把它的 Base64 编码送进去!

{
  "model": "gemini-3.1-flash-image",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "把图片里的猫变成一只赛博朋克风格的机器狗"
        },
        {
          "type": "image_url",
          "image_url": {
             "url": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ..."
          }
        }
      ]
    }
  ]
}

AILB 底层做了平滑的图文转换矩阵(详见架构设计文档),无需关心原厂 SDK 复杂而变扭的 parts 结构。

批量测试建议

如果你有大规模生图的工作流(如电商商品图自动处理脚本),建议:

  • 不要超过 50 个并发(由于上游对高速调用的频率保护)。
  • 始终捕获返回结果的 images[0].url,因为这是转存到我们的高速 CDN 上的图,不会因为上游 Google 的有效期到了而挂掉。

这篇文档对您有帮助吗?

最后更新于