打造MacOS下最便捷的AI使用姿势

在上一篇文章中，我提到了一些关于如何更高效、便捷地调用AI能力的问题。本文将教你如何在10秒钟内完成一次AI交互。在Siri变得更加智能之前，这可能是MacOS下最方便的使用方式了。即使将来Siri与OpenAI结合，它也有自己的独特优势。

需求

细说起来我想要的还挺多，主要有几个点：

交互便捷性

打开网页进行输入和交互的方式依然略显繁琐。每次需要创建会话、选择模型、输入内容，过程繁杂且容易分心。有没有更便捷的方式？我想问AI的问题很简单很临时，这么搞更重要的是工作的上下文切换导致分神。

多模型支持

有时某些AI网站还打不开，不得不切换一家服务，这种时候更麻烦，你还要记那么多网站。不光切换网站，切换模型也麻烦，我常用的就那几个，有没有好的定制方式？我想要“个性化服务”：）

个性化预设

日常工作主要的流程就是那几种，在不同网站都要写一串雷同的prompt，虽然这一点可以通过像之前介绍的Chatgpt Next Web等自定义解决，但我们想做个懒人，不想打开网页，不想寻找。

在MacOS下个人最习惯的还是用Alfred来交互，所以我会从Alfred的Workflow角度来寻找方案。

两套方案

Alfred官方推荐的ChatGPT/DALL-E

基本使用

本来制作了一个视频，文件较大浏览不方便，先上个图： Alfred-chatgpt

在Alfred5.5版本之后，终于提供了更好的View，支持图片，支持网格，也支持了Markdown，这对我们AI聊天的输出展示友好起来了。只要在官网下载ChatGPT / DALL-E安装即可，之后聊天绘图就变得非常简单。它主要能力：

基本的聊天和会话。
查询和继续历史会话。
借助Alfred的Universal Action，随时对一段内容调用AI。

微调配置

为了提高使用体验，我们可以进行一些微调。首先，增加触发方式，例如使用热键： Alfred-hotkey 其次，我们想使用其它模型怎么办，我之前在文件中介绍过一站式多模型管理：One API实用指南可以便捷的将各种模型聚合到一起，怎么在这里使用上？很简单：

在Alfred的对应Workflow中点击右上角的[x]。
找到Environment Variables，修改环境变量chatgpt_api_endpoint，设置上你oneapi的地址。
找到Configuration Builder，在Popup Selection中找到gpt_model，将你的各种模型添加到列表中。

如果一切正常你已经可以使用这些模型了，或许如之前文章提到，白嫖不少模型真开心～

两个问题

但有可能会遇到另一个问题：在使用这些非openai模型时，Stream流式输出可能会中断！这个问题我提了个Issue，如其中所述，经过一番分析后只需要简单修改即可。

找到Alfred的Workflow列表，在对应ChatGPT/DALL-E这个右键点击，选择Open in Finder。
用你喜爱的编辑器打开chatgpt文件，找到如下行修改：

1
2
3
4
5
6
7
  // If response is not finished, continue loop
  if (finishReason === null) return JSON.stringify({
    rerun: 0.1,
    variables: { streaming_now: true },
    response: responseText,
    behaviour: { response: "replacelast", scroll: "end" }
  })

修改为：

1
2
3
4
5
6
7
  // If response is not finished, continue loop
  if (finishReason === null || finishReason == undefined) return JSON.stringify({
    rerun: 0.1,
    variables: { streaming_now: true },
    response: responseText,
    behaviour: { response: "replacelast", scroll: "end" }
  })

你再试试，使用起来应该不容易遇上问题了？

怎么？还有问题，有时会报Connection stalled，这是因为有些模型返回慢时，超过5秒就认为异常了，可以适当延长一下时间。搜索如下行，将5000修改为合适的值，比如10000，即10秒超时。

1
  const stalled = new Date().getTime() - fileModified(streamFile) > 10000

然后你再玩玩看，现在还有其它问题不，有的话欢迎找我！我发现用一些可以实时联网的模型，查看一些资讯都不用去找网页搜索啦，快人一步呢！

当然，这个方案还有些不完美。比如自定义prompt的管理，比如和当前正在进行的工作的联动，比如快速切换模型，有些是不能，有些仍不便，我们继续看下一个方案！

非官方但强大的kiki-ai-workflow

“Kiki AI Workflow” 是一个为 Alfred 设计的 AI 工具集，支持 OpenAI Chat GPT、OpenRouter 和 Anthropic LLM 模型。其功能包括：

快速聊天：通过 Alfred 的命令栏启动对话。
自定义预设：根据选定文本或用户输入进行语法校正、翻译等操作。
会话续接：轻松继续之前的对话。
Markdown 聊天：在 Markdown 编辑器中进行 AI 请求。
Whisper AI 转录：多语言音频转录功能。

看起来又强大了不少呢！可以定义预设了，还可以语音转录了。实际使用起来，也有不少惊喜，快让我们看看它。它的官网，注意看它的介绍视频，已经挺详细了。

不过先要泼个冷水，因为它创建时Alfred还没有出5.5版本，不支持markdown输出，所以对话的呈现上在文本框输出时并不太好看，当然，作者也作了努力，可以通过在一个Markdown编辑器中聊天的方式变相支持更好的输出，然而，身为懒人的人，不想打开一个编辑器啊！但是它有自己强大的地方，一会再聊，先看几个使用图： kiki基本对话在发起对话前，按着Fn+Shift后可以选择要使用的模型，还是比较便利的： kiki发送前可选择使用的模型当我们选择一段文本后，通过Alfred的Universal Action相关快捷键，可以唤起一些操作。 kiki-universal-action 然后可以调起我们的一些预设（也内置了几个），这就比上一个有了更多的选择和可能性。 kiki预设使用

基本的使用就不详细介绍了，这里聊一点使用技巧：

充分利用Modifers(修饰符)

详细见modifiers，这些修饰符可以帮助您更好地控制Kiki的行为和输出方式。以下是各个修饰符的解释：

CMD（Command）：使用CMD键允许您选择备用模型，并在配置的情况下选择备用系统角色。
OPT（Option）：按住OPT键可以将响应直接粘贴到最前面的窗口中，而不是在对话框中显示。这对于快速处理和集成Kiki的输出非常有用。
CTRL（Control）：在使用CTRL键时，现有的上下文文件不会被重置。请注意，如果文件中现有消息的数量超过了工作流配置中设置的阈值，那么最早的消息将被移除。
SHIFT：这个修饰符触发Kiki以对话框形式回复。这是Kiki回答聊天或从Alfred命令栏启动预设的默认方式。正如我们很快会学到的，这个“默认”可能会改变。
FN（Function）：按住FN键允许您在选定文本下方获取Kiki的回答。此选项仅在通过通用操作、热键、片段或外部触发器在选定文本上使用Kiki时可用。
FN + SHIFT：这允许您将请求发送到在Kiki数据文件夹中的presets/models.json文件中配置的任何预设模型。重要提示：您必须重命名预设文件夹或使其可发现，并为使此功能正常工作配置一些模型。

了解这些修饰符及其功能有助于您更有效地使用Kiki CLI，并根据需要定制输出和交互方式。

添加自定义模型使用

这块只需要修改预设目录Preset的models.json文件即可，添加一些内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
[
  {
    "id": "gpt-4o",
    "theModel": "gpt-4o"
  },
  {
    "id": "gpt-35-turbo",
    "theModel": "gpt-35-turbo"
  },
  {
    "id": "M_baichuan4",
    "theModel": "Baichuan4"
  },
  {
    "id": "m_doubao-pro-4k",
    "themodel": "doubao-pro-4k"
  },
  {
    "id": "hunyuan",
    "theModel": "hunyuan"
  },
  {
    "id": "moonshot-v1-8k",
    "theModel": "moonshot-v1-8k"
  }
]

在对话时按FN + SHIFT可选择它们。

自定义预设日常使用

我们修改预设目录Preset的text.json文件，添加一些内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
  {
    "id": "translateCn",
    "theTitle": "翻译成中文",
    "thePrompt": "将以下内容翻译为中文，不要在您执行的任务上包含任何注释或引号:\n[[txt]]"
  },
  {
    "id": "InterpretiveCode",
    "theTitle": "解释代码",
    "thePrompt": "请作为一个专业的程序员，对以下代码的关键点进行适当解释，不要说太多基础的内容，说重点即可。请使用中文回答:\n[[txt]]"
  },
  {
    "id": "codeReview",
    "theTitle": "代码审查",
    "thePrompt": "请审查以下代码，指出其中的错误和改进的地方，不要说太多基础的内容，说重点即可，请使用中文回答:\n[[txt]]"
  }

然后面对各种场景，随时调出： kiki自定义预设

Whisper语音

借助于Whisper的语音识别，我们可以语音输入，也可以直接丢一个声音文件给它，一会便返回文字给你。然后它同时提供了Run Preset，打通了语音输入这个路径。注意要使用这个功能需要自己安装它提供的快捷指令，第一次使用还需要给相关权限，同时要设置一下文件路径，不然会报错。还有要注意文件路径不能有空格等，不然也会报错。

在当前APP内融入AI

Kiki有个比较好的能力是很方便融入当前你使用的软件，不论是写代码还是码字。比如，我要把前面这一段翻译为英文。

1
Kiki has the advantage of being able to integrate well with the software you are using, whether you are coding or writing. For example, I want to translate the previous paragraph into English.

可以直接在这段话后面追加::kip即可（Kiki Use as Prompt 的snippet配置keyword）。不需要跳出，也不需要来回复制、粘贴。如果是在VSCode中写代码，写个注释再唤起AI，有点像是在用Copilot的感觉了：）关键是这个模型是咱自己定义和任意切换的。

借助云同步

Kiki设计为数据可单独保存在指定目录，我们只需要将其数据目录设置为如Dropbox或其它云盘目录，这样所有设备都在自动同步后，共享这些设置，包括历史会话等，体验上又上升一级。

尾声

以上就是对这两个工具的介绍，希望能对你的日常使用有所帮助。有了它们之后，小问题我就不会再打开网页了。另外，文中虽然提到了部分看似要提前准备的工作（如OneAPI聚合AI模型），但并不是必须的，两个workflow默认对GPT、Gemini等主流几个模型都支持得不错，达到了开箱即用，不必担心，上手轻松。如果你也想体验这种便捷和丝滑，赶紧安装试试看吧！

我是个爱折腾技术的工程师，也乐于分享。欢迎点赞、关注、分享，更欢迎一起探讨技术问题，共同学习，共同进步。为了获得更及时的文章推送，欢迎关注我的公众号：

扫码关注公众号