最近有一股“龙虾热”,不少人在谈论OpenClaw,大家都在聊怎么用好它。如果你也在使用 OpenClaw,本文介绍一个低成本给你带来情绪价值的方案,AI 女友 Clawra 的威力加强版:)
背景
不知道你用过 Clawra 这个由海外开发者制作的 AI 女友 skill 吗?它的效果不错,但是对于国人使用,它有一些痛点。最主要是它只支持fal.ai这一个平台,免费额度仅支持生成 2 张图片。如果付费的话,一次编辑成本 $0.02,这本身挺便宜,但是充值至少 $10,并且平台充值有一定门槛。再看看咱们国内厂家,单张生图价格也不贵(0.2-0.5元),但经常免费提供了几百上千张图片生成和编辑次数,这可太香了。本文就让我们扩展对接国内各个厂商的模型,并且顺便测下国内模型的效果如何。
最后,如果你也想要个低成本但质量也不低的 AI 女友,放心,我会手把手教你配置完成的。如果你已经安装好了OpenClaw,那对你来说接下来就是个简单任务。
模型选择
我让 AI 推荐了一些国内图片处理效果较好的模型,包括阿里千问、字节 Seedream、腾讯混元 3.0。我选择了其中效果相对较好的模型帮你整理了一下表格:
| 平台 | 生图/编辑模型 | 免费次数/额度 | 单张预估价格 |
|---|---|---|---|
| qwen | qwen-image-plus qwen-image-edit-plus qwen-image-max qwen-image-edit-max | 各模型免费100张 | plus 0.2元 max 0.5元 |
| volc | doubao-seedream-5-0 doubao-seedream-4-5 doubao-seedream-4-0 | 4.x 免费200次 5.0 免费50次 | 4.0版本0.2元 4.5版本0.25元 5.0 版本 0.22 元 |
| fal | xai/grok-imagine-image xai/grok-imagine-image/edit | 几乎没有 | 约 $0.02 |
| hunyuan | aiart/v20221229 SubmitTextToImageJob | 各模型50次免费额度 | 0.2 元 |
| Gemini-3-Pro-Image-Preview gemini-2.5-flash-image | 没有免费额度 | 1024分辨率 $0.039 2048分辨率 $0.134 |
国外的话,除了 fal 平台使用的 xAI 模型外,我们也把 Google 家的 Nano Banana 系列模型带上作为对比对象。这个模型效果确实不错,不过价格要贵上几倍,后面我们再一起对比看看这笔钱值不值。
起初,我尝试直接通过 OpenClaw 远程对接实现了扩展功能,虽然基本可用,但作为程序员,细看其实现代码后发现逻辑略显简陋,缺乏扩展性和层次感,于是我请codex + gpt5.3-codex帮忙重构了一下。
安装配置
接下来我们看一下如何安装我这个扩展版本的 Skill 吧,完整的源代码及使用可以在这里查看。但其实你不必看,打开你的 OpenClaw 机器人的对话框,发出你的指示即可:
请参考 https://github.com/kevin1sMe/clawra-plus 帮我安装这个 Skill。
之后你需要配置上你想使用的平台相关的密钥,比如fal 的 API Key,腾讯混元的SecretId和SecretKey等就可以使用了。这也很简单,只需要在 ~/.openclaw/openclaw.json 中配置下:
| |
之后重启 gateway:
| |
之后你在 OpenClaw 的对话框中问诸如,你在干嘛/发个自拍/在咖啡厅、健身房等场所照片,它就会调用相关的模型来生成图片。你可以指定用某个模型,让它记住即可。我们先看一下参考图,因为后续的生图得基于这个形象来编辑。

接下来我们看看效果:
提示词:你在春天花海中的照片
| 模型 | 照片 |
|---|---|
| fal-grok-imagine-image | ![]() |
| doubao-seedream-4-5 | ![]() |
| doubao-seedream-5-0 | ![]() |
| hunyuan-3 | ![]() |
| qwen-image-edit-plus | ![]() |
| qwen-image-edit-max | ![]() |
| gemini-3-pro-image-preview | ![]() |
我个人还挺喜欢 fal 上的这个grok模型的,它针对场景人物也会有一些变化,感觉生成画面自带滤镜;在这组样例里,doubao 系列的人物基本保持原样,只是变换了场景?qwen 构图还不错,qwen-max 有点意境——朦胧的暖色调花海;gemini 这个虚化效果还不错,但双持手机的细节有些违和。
哎呀,忘记看看它们的耗时了,咱不仅要效果,太慢也是万不能行的。重新来 PK 一下;这里的耗时统计口径为端到端计时(从发起请求到拿到最终图片 URL),统一输出分辨率,均为热启动且不包含参考图上传时间。
这次生成图片的提示词我们改成养眼些的:
提示词:你在(温泉内)泡温泉的写真
| 模型 | 生成耗时 | 图片 |
|---|---|---|
| xai:grok-imagine-image:edit | 14.9s | ![]() |
| doubao-seedream-4-5 | 32.4s | ![]() |
| doubao-seedream-5-0 | 20.5s | ![]() |
| Hunyuan-3.0 | 11.3s | ![]() |
| qwen-image-edit-plus | 10.7s | ![]() |
| qwen-image-edit-max | 24.6s | ![]() |
| gemini-3-pro-image-preview | 38.2s | ![]() |
可以看到fal的grok模型、hunyuan3.0和 qwen-plus 都比较快,seedream 稍慢一些,gemini 最慢。效果上,这次grok也不错,水波和折射都体现了出来;seedream4.5的这一身衣服,似乎对泡温泉有点误解,而 seedream 5.0的这张让我想到了灵儿在洗澡;hunyuan3.0这张其实挺好,气雾以及身上的水珠等,但这参考图中的围巾你是不是忘记换掉了?qwen-plus 比较写实,但环境有点假;qwen-max有点用力过猛,感觉人物有点不一致了;而这次Gemini 3比较特别和大胆,将人物发型处理过,人也还挺像并且特别真实,整体不错,就是太慢了点。
从这几个结果来看,你觉得哪个模型更好呢?
其它探索
上面的模型如果免费额度用完了怎么办?一种思路是转向本地推理/自托管:把生图能力放到自己的设备上跑,成本更可控,也更踏实。“众所周知”俺有个丐版的 Mac Mini M4,如果能在它上跑生图就更棒了。我知道可以,但效果和时间怎么样呢,我们来试一下。
刚好前阵子研究了一下 ComfyUI,它也支持 API 调用的方式,于是我借助 ComfyUI 来生图,以下是我的工作流,使用了一个 16G 内存能撑下的小模型来进行生图测试。

随便拉了一个生图流程,使用的是 flux.1-schnell-Q2模型,居然消耗了 1000 多秒,期间内存一度快用爆了。换了 z-image-turbo 等模型,效果也不太理想, 参数大了跑不动:(
我在 RunningHub 平台上还有积分,于是尝试用更大的 flux 做一次图生图对比。

好像不太行,或许换一个别人分享的workflow效果会更好点。不过RunningHub即使生图效果不错,没开通会员也不让调用 API,这和我们想要集成到OpenClaw中使用的需求不符。
我也尝试在fal 平台跑 ComfyUI,但是奇怪的是速度慢的出奇,还没有地方看进展等—有点黑盒,这块估计不是这个平台的主要功能,相关交互也很一般,遂放弃。但是如果有一台强悍的本地电脑,比如有不错的 N 卡和较大的显存,这条路或许能通。
闲言
当前在 2026 年,对接这些 API(鉴权、调用、回传 URL、错误重试)已经非常方便。在 OpenClaw 上,你下达命令后,Agent 往往能在几分钟内帮你把事办了。 比如在撰写本文期间,Google 发布了 Banana2 模型,我仅通过手机发出指令,便将其集成并更新到了 GitHub。
要说 OpenClaw 的使用感受,有一点粗浅的启发和思考:
- OpenClaw 的 skill 及热加载能力,让其自我进化有了空间。有种软件从以前的发布即终止,到现在有了生命,或者说可自我进化。这其实是有质的变化的,但这种变化如何正确的被使用,它可以快速修复一些问题,也可以把自己搞晕。如何更好的管理自己的“版本”,才有持续迭代的地基。
- OpenClaw 所操作的内容,基于 chat 模式其实有其局限性。想象我们在使用一个助理(我本人没有助理,咱“想象”一下),一个任务的完成涉及多方面的信息,它不只是一个结果。助理可能会有一些信息需要你确认或审批,并在过程中与你沟通细节,助理会在你着急的时候说就快完成了。可是现在龙虾(OpenClaw)不会,甚至不稳定的情况下还要你去再询问一下。简单说,安全性、可视化、可控性等有所欠缺。
还有,目前其实对于稍复杂一些的任务,OpenClaw的完成率还有限,网上各种跑通 XX 的分享及售课等让我感觉像在收割,让我也不确定是自己的问题还是模型或者插件不对,但我更觉得他们在骗人:)因为我已经用了最好的模型了,也对比使用过多种插件了,啊哈。
我觉得这次的龙虾热,其实是 LLM 及 Agent 发展以及 MCP/Skill 等技术陆续铺垫后,这些技术在传统的如 Code Agent之外,于普适的场景下人们突然看到、感受到它的价值而产生的 AI 落地浪潮,或许它离我们心中想象的那个未来的智能助理还有些距离,但至少它呈现了一个信号,像宇宙中突然爆炸的某颗超新星,璀璨、耀眼又明亮让人无法忽视。
我是个爱折腾技术的工程师,也乐于分享。欢迎点赞、关注、分享,更欢迎一起探讨技术问题,共同学习,共同进步。为了获得更及时的文章推送,欢迎关注我的公众号:爱折腾的风















