Featured image of post OpenClaw 玩家必看:只需几步配置,让你的机器人进化生图能力!

OpenClaw 玩家必看:只需几步配置,让你的机器人进化生图能力!

最近有一股“龙虾热”,不少人在谈论OpenClaw,大家都在聊怎么用好它。如果你也在使用 OpenClaw,本文介绍一个低成本给你带来情绪价值的方案,AI 女友 Clawra 的威力加强版:)

背景

不知道你用过 Clawra 这个由海外开发者制作的 AI 女友 skill 吗?它的效果不错,但是对于国人使用,它有一些痛点。最主要是它只支持fal.ai这一个平台,免费额度仅支持生成 2 张图片。如果付费的话,一次编辑成本 $0.02,这本身挺便宜,但是充值至少 $10,并且平台充值有一定门槛。再看看咱们国内厂家,单张生图价格也不贵(0.2-0.5元),但经常免费提供了几百上千张图片生成和编辑次数,这可太香了。本文就让我们扩展对接国内各个厂商的模型,并且顺便测下国内模型的效果如何。

最后,如果你也想要个低成本但质量也不低的 AI 女友,放心,我会手把手教你配置完成的。如果你已经安装好了OpenClaw,那对你来说接下来就是个简单任务。

模型选择

我让 AI 推荐了一些国内图片处理效果较好的模型,包括阿里千问、字节 Seedream、腾讯混元 3.0。我选择了其中效果相对较好的模型帮你整理了一下表格:

平台生图/编辑模型免费次数/额度单张预估价格
qwenqwen-image-plus
qwen-image-edit-plus
qwen-image-max
qwen-image-edit-max
各模型免费100张plus 0.2元
max 0.5元
volcdoubao-seedream-5-0
doubao-seedream-4-5
doubao-seedream-4-0
4.x 免费200次
5.0 免费50次
4.0版本0.2元
4.5版本0.25元
5.0 版本 0.22 元
falxai/grok-imagine-image
xai/grok-imagine-image/edit
几乎没有约 $0.02
hunyuanaiart/v20221229 SubmitTextToImageJob各模型50次免费额度​0.2 元​
googleGemini-3-Pro-Image-Preview
gemini-2.5-flash-image
没有免费额度1024分辨率 $0.039
2048分辨率 $0.134

国外的话,除了 fal 平台使用的 xAI 模型外,我们也把 Google 家的 Nano Banana 系列模型带上作为对比对象。这个模型效果确实不错,不过价格要贵上几倍,后面我们再一起对比看看这笔钱值不值。 起初,我尝试直接通过 OpenClaw 远程对接实现了扩展功能,虽然基本可用,但作为程序员,细看其实现代码后发现逻辑略显简陋,缺乏扩展性和层次感,于是我请codex + gpt5.3-codex帮忙重构了一下。

安装配置

接下来我们看一下如何安装我这个扩展版本的 Skill 吧,完整的源代码及使用可以在这里查看。但其实你不必看,打开你的 OpenClaw 机器人的对话框,发出你的指示即可:

请参考 https://github.com/kevin1sMe/clawra-plus 帮我安装这个 Skill。

之后你需要配置上你想使用的平台相关的密钥,比如fal 的 API Key,腾讯混元的SecretId和SecretKey等就可以使用了。这也很简单,只需要在 ~/.openclaw/openclaw.json 中配置下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
{
  "skills": {
    "entries": {
      "clawra-selfie": {
        "enabled": true,
        "env": {
          "OPENCLAW_GATEWAY_TOKEN": "your_gateway_token",
          "DASHSCOPE_API_KEY": "optional_for_qwen",
          "ARK_API_KEY": "optional_for_seedream",
          "FAL_KEY": "optional_for_fal",
          "GOOGLE_API_KEY": "optional_for_google",
          "TENCENT_SECRET_ID": "optional_for_hunyuan",
          "TENCENT_SECRET_KEY": "optional_for_hunyuan"
        }
      }
    }
  }
}

之后重启 gateway:

1
openclaw gateway restart

之后你在 OpenClaw 的对话框中问诸如,你在干嘛/发个自拍/在咖啡厅、健身房等场所照片,它就会调用相关的模型来生成图片。你可以指定用某个模型,让它记住即可。我们先看一下参考图,因为后续的生图得基于这个形象来编辑。

默认参考图

接下来我们看看效果:

提示词:你在春天花海中的照片

模型照片
fal-grok-imagine-image
doubao-seedream-4-5
doubao-seedream-5-0
hunyuan-3
qwen-image-edit-plus
qwen-image-edit-max
gemini-3-pro-image-preview

我个人还挺喜欢 fal 上的这个grok模型的,它针对场景人物也会有一些变化,感觉生成画面自带滤镜;在这组样例里,doubao 系列的人物基本保持原样,只是变换了场景?qwen 构图还不错,qwen-max 有点意境——朦胧的暖色调花海;gemini 这个虚化效果还不错,但双持手机的细节有些违和。

哎呀,忘记看看它们的耗时了,咱不仅要效果,太慢也是万不能行的。重新来 PK 一下;这里的耗时统计口径为端到端计时(从发起请求到拿到最终图片 URL),统一输出分辨率,均为热启动且不包含参考图上传时间。
这次生成图片的提示词我们改成养眼些的:

提示词:你在(温泉内)泡温泉的写真

模型生成耗时图片
xai:grok-imagine-image:edit14.9s
doubao-seedream-4-532.4s
doubao-seedream-5-020.5s
Hunyuan-3.011.3s
qwen-image-edit-plus10.7s
qwen-image-edit-max24.6s
gemini-3-pro-image-preview38.2s

可以看到fal的grok模型、hunyuan3.0和 qwen-plus 都比较快,seedream 稍慢一些,gemini 最慢。效果上,这次grok也不错,水波和折射都体现了出来;seedream4.5的这一身衣服,似乎对泡温泉有点误解,而 seedream 5.0的这张让我想到了灵儿在洗澡;hunyuan3.0这张其实挺好,气雾以及身上的水珠等,但这参考图中的围巾你是不是忘记换掉了?qwen-plus 比较写实,但环境有点假;qwen-max有点用力过猛,感觉人物有点不一致了;而这次Gemini 3比较特别和大胆,将人物发型处理过,人也还挺像并且特别真实,整体不错,就是太慢了点。

从这几个结果来看,你觉得哪个模型更好呢?

其它探索

上面的模型如果免费额度用完了怎么办?一种思路是转向本地推理/自托管:把生图能力放到自己的设备上跑,成本更可控,也更踏实。“众所周知”俺有个丐版的 Mac Mini M4,如果能在它上跑生图就更棒了。我知道可以,但效果和时间怎么样呢,我们来试一下。

刚好前阵子研究了一下 ComfyUI,它也支持 API 调用的方式,于是我借助 ComfyUI 来生图,以下是我的工作流,使用了一个 16G 内存能撑下的小模型来进行生图测试。

ComfyUI工作流

随便拉了一个生图流程,使用的是 flux.1-schnell-Q2模型,居然消耗了 1000 多秒,期间内存一度快用爆了。换了 z-image-turbo 等模型,效果也不太理想, 参数大了跑不动:(

我在 RunningHub 平台上还有积分,于是尝试用更大的 flux 做一次图生图对比。 RunningHub运行

好像不太行,或许换一个别人分享的workflow效果会更好点。不过RunningHub即使生图效果不错,没开通会员也不让调用 API,这和我们想要集成到OpenClaw中使用的需求不符。

我也尝试在fal 平台跑 ComfyUI,但是奇怪的是速度慢的出奇,还没有地方看进展等—有点黑盒,这块估计不是这个平台的主要功能,相关交互也很一般,遂放弃。但是如果有一台强悍的本地电脑,比如有不错的 N 卡和较大的显存,这条路或许能通。

闲言

当前在 2026 年,对接这些 API(鉴权、调用、回传 URL、错误重试)已经非常方便。在 OpenClaw 上,你下达命令后,Agent 往往能在几分钟内帮你把事办了。 比如在撰写本文期间,Google 发布了 Banana2 模型,我仅通过手机发出指令,便将其集成并更新到了 GitHub。

要说 OpenClaw 的使用感受,有一点粗浅的启发和思考:

  • OpenClaw 的 skill 及热加载能力,让其自我进化有了空间。有种软件从以前的发布即终止,到现在有了生命,或者说可自我进化。这其实是有质的变化的,但这种变化如何正确的被使用,它可以快速修复一些问题,也可以把自己搞晕。如何更好的管理自己的“版本”,才有持续迭代的地基。
  • OpenClaw 所操作的内容,基于 chat 模式其实有其局限性。想象我们在使用一个助理(我本人没有助理,咱“想象”一下),一个任务的完成涉及多方面的信息,它不只是一个结果。助理可能会有一些信息需要你确认或审批,并在过程中与你沟通细节,助理会在你着急的时候说就快完成了。可是现在龙虾(OpenClaw)不会,甚至不稳定的情况下还要你去再询问一下。简单说,安全性、可视化、可控性等有所欠缺。

还有,目前其实对于稍复杂一些的任务,OpenClaw的完成率还有限,网上各种跑通 XX 的分享及售课等让我感觉像在收割,让我也不确定是自己的问题还是模型或者插件不对,但我更觉得他们在骗人:)因为我已经用了最好的模型了,也对比使用过多种插件了,啊哈。

我觉得这次的龙虾热,其实是 LLM 及 Agent 发展以及 MCP/Skill 等技术陆续铺垫后,这些技术在传统的如 Code Agent之外,于普适的场景下人们突然看到、感受到它的价值而产生的 AI 落地浪潮,或许它离我们心中想象的那个未来的智能助理还有些距离,但至少它呈现了一个信号,像宇宙中突然爆炸的某颗超新星,璀璨、耀眼又明亮让人无法忽视。

我是个爱折腾技术的工程师,也乐于分享。欢迎点赞、关注、分享,更欢迎一起探讨技术问题,共同学习,共同进步。为了获得更及时的文章推送,欢迎关注我的公众号:爱折腾的风

扫码关注公众号