OpenClaw 玩家必看：只需几步配置，让你的机器人进化生图能力！

最近有一股“龙虾热”，不少人在谈论OpenClaw，大家都在聊怎么用好它。如果你也在使用 OpenClaw，本文介绍一个低成本给你带来情绪价值的方案，AI 女友 Clawra 的威力加强版：）

背景

不知道你用过 Clawra 这个由海外开发者制作的 AI 女友 skill 吗？它的效果不错，但是对于国人使用，它有一些痛点。最主要是它只支持fal.ai这一个平台，免费额度仅支持生成 2 张图片。如果付费的话，一次编辑成本 $0.02，这本身挺便宜，但是充值至少 $10，并且平台充值有一定门槛。再看看咱们国内厂家，单张生图价格也不贵（0.2-0.5元），但经常免费提供了几百上千张图片生成和编辑次数，这可太香了。本文就让我们扩展对接国内各个厂商的模型，并且顺便测下国内模型的效果如何。

最后，如果你也想要个低成本但质量也不低的 AI 女友，放心，我会手把手教你配置完成的。如果你已经安装好了OpenClaw，那对你来说接下来就是个简单任务。

模型选择

我让 AI 推荐了一些国内图片处理效果较好的模型，包括阿里千问、字节 Seedream、腾讯混元 3.0。我选择了其中效果相对较好的模型帮你整理了一下表格：

平台	生图/编辑模型	免费次数/额度	单张预估价格
qwen	qwen-image-plus qwen-image-edit-plus qwen-image-max qwen-image-edit-max	各模型免费100张	plus 0.2元 max 0.5元
volc	doubao-seedream-5-0 doubao-seedream-4-5 doubao-seedream-4-0	4.x 免费200次 5.0 免费50次	4.0版本0.2元 4.5版本0.25元 5.0 版本 0.22 元
fal	xai/grok-imagine-image xai/grok-imagine-image/edit	几乎没有	约 $0.02
hunyuan	aiart/v20221229 SubmitTextToImageJob	各模型50次免费额度	0.2 元
google	Gemini-3-Pro-Image-Preview gemini-2.5-flash-image	没有免费额度	1024分辨率 $0.039 2048分辨率 $0.134

国外的话，除了 fal 平台使用的 xAI 模型外，我们也把 Google 家的 Nano Banana 系列模型带上作为对比对象。这个模型效果确实不错，不过价格要贵上几倍，后面我们再一起对比看看这笔钱值不值。起初，我尝试直接通过 OpenClaw 远程对接实现了扩展功能，虽然基本可用，但作为程序员，细看其实现代码后发现逻辑略显简陋，缺乏扩展性和层次感，于是我请codex + gpt5.3-codex帮忙重构了一下。

安装配置

接下来我们看一下如何安装我这个扩展版本的 Skill 吧，完整的源代码及使用可以在这里查看。但其实你不必看，打开你的 OpenClaw 机器人的对话框，发出你的指示即可：

请参考 https://github.com/kevin1sMe/clawra-plus 帮我安装这个 Skill。

之后你需要配置上你想使用的平台相关的密钥，比如fal 的 API Key，腾讯混元的SecretId和SecretKey等就可以使用了。这也很简单，只需要在 ~/.openclaw/openclaw.json 中配置下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
{
  "skills": {
    "entries": {
      "clawra-selfie": {
        "enabled": true,
        "env": {
          "OPENCLAW_GATEWAY_TOKEN": "your_gateway_token",
          "DASHSCOPE_API_KEY": "optional_for_qwen",
          "ARK_API_KEY": "optional_for_seedream",
          "FAL_KEY": "optional_for_fal",
          "GOOGLE_API_KEY": "optional_for_google",
          "TENCENT_SECRET_ID": "optional_for_hunyuan",
          "TENCENT_SECRET_KEY": "optional_for_hunyuan"
        }
      }
    }
  }
}

之后重启 gateway：

1
openclaw gateway restart

之后你在 OpenClaw 的对话框中问诸如，你在干嘛/发个自拍/在咖啡厅、健身房等场所照片，它就会调用相关的模型来生成图片。你可以指定用某个模型，让它记住即可。我们先看一下参考图，因为后续的生图得基于这个形象来编辑。

默认参考图

接下来我们看看效果：

提示词：你在春天花海中的照片

模型	照片
fal-grok-imagine-image
doubao-seedream-4-5
doubao-seedream-5-0
hunyuan-3
qwen-image-edit-plus
qwen-image-edit-max
gemini-3-pro-image-preview

我个人还挺喜欢 fal 上的这个grok模型的，它针对场景人物也会有一些变化，感觉生成画面自带滤镜；在这组样例里，doubao 系列的人物基本保持原样，只是变换了场景？qwen 构图还不错，qwen-max 有点意境——朦胧的暖色调花海；gemini 这个虚化效果还不错，但双持手机的细节有些违和。

哎呀，忘记看看它们的耗时了，咱不仅要效果，太慢也是万不能行的。重新来 PK 一下；这里的耗时统计口径为端到端计时（从发起请求到拿到最终图片 URL），统一输出分辨率，均为热启动且不包含参考图上传时间。
这次生成图片的提示词我们改成养眼些的：

提示词：你在（温泉内）泡温泉的写真

模型	生成耗时	图片
xai:grok-imagine-image:edit	14.9s
doubao-seedream-4-5	32.4s
doubao-seedream-5-0	20.5s
Hunyuan-3.0	11.3s
qwen-image-edit-plus	10.7s
qwen-image-edit-max	24.6s
gemini-3-pro-image-preview	38.2s

可以看到fal的grok模型、hunyuan3.0和 qwen-plus 都比较快，seedream 稍慢一些，gemini 最慢。效果上，这次grok也不错，水波和折射都体现了出来；seedream4.5的这一身衣服，似乎对泡温泉有点误解，而 seedream 5.0的这张让我想到了灵儿在洗澡；hunyuan3.0这张其实挺好，气雾以及身上的水珠等，但这参考图中的围巾你是不是忘记换掉了？qwen-plus 比较写实，但环境有点假；qwen-max有点用力过猛，感觉人物有点不一致了；而这次Gemini 3比较特别和大胆，将人物发型处理过，人也还挺像并且特别真实，整体不错，就是太慢了点。

从这几个结果来看，你觉得哪个模型更好呢？

其它探索

上面的模型如果免费额度用完了怎么办？一种思路是转向本地推理/自托管：把生图能力放到自己的设备上跑，成本更可控，也更踏实。“众所周知”俺有个丐版的 Mac Mini M4，如果能在它上跑生图就更棒了。我知道可以，但效果和时间怎么样呢，我们来试一下。

刚好前阵子研究了一下 ComfyUI，它也支持 API 调用的方式，于是我借助 ComfyUI 来生图，以下是我的工作流，使用了一个 16G 内存能撑下的小模型来进行生图测试。

ComfyUI工作流

随便拉了一个生图流程，使用的是 flux.1-schnell-Q2模型，居然消耗了 1000 多秒，期间内存一度快用爆了。换了 z-image-turbo 等模型，效果也不太理想，参数大了跑不动：（

我在 RunningHub 平台上还有积分，于是尝试用更大的 flux 做一次图生图对比。 RunningHub运行

好像不太行，或许换一个别人分享的workflow效果会更好点。不过RunningHub即使生图效果不错，没开通会员也不让调用 API，这和我们想要集成到OpenClaw中使用的需求不符。

我也尝试在fal 平台跑 ComfyUI，但是奇怪的是速度慢的出奇，还没有地方看进展等—有点黑盒，这块估计不是这个平台的主要功能，相关交互也很一般，遂放弃。但是如果有一台强悍的本地电脑，比如有不错的 N 卡和较大的显存，这条路或许能通。

闲言

当前在 2026 年，对接这些 API（鉴权、调用、回传 URL、错误重试）已经非常方便。在 OpenClaw 上，你下达命令后，Agent 往往能在几分钟内帮你把事办了。比如在撰写本文期间，Google 发布了 Banana2 模型，我仅通过手机发出指令，便将其集成并更新到了 GitHub。

要说 OpenClaw 的使用感受，有一点粗浅的启发和思考：

OpenClaw 的 skill 及热加载能力，让其自我进化有了空间。有种软件从以前的发布即终止，到现在有了生命，或者说可自我进化。这其实是有质的变化的，但这种变化如何正确的被使用，它可以快速修复一些问题，也可以把自己搞晕。如何更好的管理自己的“版本”，才有持续迭代的地基。
OpenClaw 所操作的内容，基于 chat 模式其实有其局限性。想象我们在使用一个助理（我本人没有助理，咱“想象”一下），一个任务的完成涉及多方面的信息，它不只是一个结果。助理可能会有一些信息需要你确认或审批，并在过程中与你沟通细节，助理会在你着急的时候说就快完成了。可是现在龙虾(OpenClaw)不会，甚至不稳定的情况下还要你去再询问一下。简单说，安全性、可视化、可控性等有所欠缺。

还有，目前其实对于稍复杂一些的任务，OpenClaw的完成率还有限，网上各种跑通 XX 的分享及售课等让我感觉像在收割，让我也不确定是自己的问题还是模型或者插件不对，但我更觉得他们在骗人：）因为我已经用了最好的模型了，也对比使用过多种插件了，啊哈。

我觉得这次的龙虾热，其实是 LLM 及 Agent 发展以及 MCP/Skill 等技术陆续铺垫后，这些技术在传统的如 Code Agent之外，于普适的场景下人们突然看到、感受到它的价值而产生的 AI 落地浪潮，或许它离我们心中想象的那个未来的智能助理还有些距离，但至少它呈现了一个信号，像宇宙中突然爆炸的某颗超新星，璀璨、耀眼又明亮让人无法忽视。

我是个爱折腾技术的工程师，也乐于分享。欢迎点赞、关注、分享，更欢迎一起探讨技术问题，共同学习，共同进步。为了获得更及时的文章推送，欢迎关注我的公众号：爱折腾的风

扫码关注公众号