在上一篇文章中,我提到了一些关于如何更高效、便捷地调用AI能力的问题。本文将教你如何在10秒钟内完成一次AI交互。在Siri变得更加智能之前,这可能是MacOS下最方便的使用方式了。即使将来Siri与OpenAI结合,它也有自己的独特优势。
需求
细说起来我想要的还挺多,主要有几个点:
交互便捷性
打开网页进行输入和交互的方式依然略显繁琐。每次需要创建会话、选择模型、输入内容,过程繁杂且容易分心。有没有更便捷的方式?我想问AI的问题很简单很临时,这么搞更重要的是工作的上下文切换导致分神。
多模型支持
有时某些AI网站还打不开,不得不切换一家服务,这种时候更麻烦,你还要记那么多网站。不光切换网站,切换模型也麻烦,我常用的就那几个,有没有好的定制方式?我想要“个性化服务”:)
个性化预设
日常工作主要的流程就是那几种,在不同网站都要写一串雷同的prompt,虽然这一点可以通过像之前介绍的Chatgpt Next Web
等自定义解决,但我们想做个懒人,不想打开网页,不想寻找。
在MacOS下个人最习惯的还是用Alfred来交互,所以我会从Alfred的Workflow角度来寻找方案。
两套方案
Alfred官方推荐的ChatGPT/DALL-E
基本使用
本来制作了一个视频,文件较大浏览不方便,先上个图:
在Alfred5.5版本之后,终于提供了更好的View,支持图片,支持网格,也支持了Markdown,这对我们AI聊天的输出展示友好起来了。只要在官网下载ChatGPT / DALL-E安装即可,之后聊天绘图就变得非常简单。它主要能力:
- 基本的聊天和会话。
- 查询和继续历史会话。
- 借助Alfred的Universal Action,随时对一段内容调用AI。
微调配置
为了提高使用体验,我们可以进行一些微调。首先,增加触发方式,例如使用热键: 其次,我们想使用其它模型怎么办,我之前在文件中介绍过一站式多模型管理:One API实用指南可以便捷的将各种模型聚合到一起,怎么在这里使用上?很简单:
- 在Alfred的对应Workflow中点击右上角的
[x]
。 - 找到
Environment Variables
,修改环境变量chatgpt_api_endpoint,设置上你oneapi的地址。 - 找到
Configuration Builder
,在Popup Selection中找到gpt_model
,将你的各种模型添加到列表中。
如果一切正常你已经可以使用这些模型了,或许如之前文章提到,白嫖不少模型真开心~
两个问题
但有可能会遇到另一个问题:在使用这些非openai模型时,Stream流式输出可能会中断!这个问题我提了个Issue,如其中所述,经过一番分析后只需要简单修改即可。
- 找到Alfred的Workflow列表,在对应
ChatGPT/DALL-E
这个右键点击,选择Open in Finder
。 - 用你喜爱的编辑器打开
chatgpt
文件,找到如下行修改:
|
|
修改为:
|
|
你再试试,使用起来应该不容易遇上问题了?
怎么?还有问题,有时会报Connection stalled
,这是因为有些模型返回慢时,超过5秒就认为异常了,可以适当延长一下时间。搜索如下行,将5000修改为合适的值,比如10000,即10秒超时。
|
|
然后你再玩玩看,现在还有其它问题不,有的话欢迎找我!我发现用一些可以实时联网的模型,查看一些资讯都不用去找网页搜索啦,快人一步呢!
当然,这个方案还有些不完美。比如自定义prompt的管理,比如和当前正在进行的工作的联动,比如快速切换模型,有些是不能,有些仍不便,我们继续看下一个方案!
非官方但强大的kiki-ai-workflow
“Kiki AI Workflow” 是一个为 Alfred 设计的 AI 工具集,支持 OpenAI Chat GPT、OpenRouter 和 Anthropic LLM 模型。其功能包括:
- 快速聊天:通过 Alfred 的命令栏启动对话。
- 自定义预设:根据选定文本或用户输入进行语法校正、翻译等操作。
- 会话续接:轻松继续之前的对话。
- Markdown 聊天:在 Markdown 编辑器中进行 AI 请求。
- Whisper AI 转录:多语言音频转录功能。
看起来又强大了不少呢!可以定义预设了,还可以语音转录了。实际使用起来,也有不少惊喜,快让我们看看它。 它的官网,注意看它的介绍视频,已经挺详细了。
不过先要泼个冷水,因为它创建时Alfred还没有出5.5版本,不支持markdown输出,所以对话的呈现上在文本框输出时并不太好看,当然,作者也作了努力,可以通过在一个Markdown编辑器中聊天的方式变相支持更好的输出,然而,身为懒人的人,不想打开一个编辑器啊!但是它有自己强大的地方,一会再聊,先看几个使用图:
在发起对话前,按着Fn
+Shift
后可以选择要使用的模型,还是比较便利的:
当我们选择一段文本后,通过Alfred的Universal Action
相关快捷键,可以唤起一些操作。
然后可以调起我们的一些预设(也内置了几个),这就比上一个有了更多的选择和可能性。
基本的使用就不详细介绍了,这里聊一点使用技巧:
充分利用Modifers(修饰符)
详细见modifiers,这些修饰符可以帮助您更好地控制Kiki的行为和输出方式。以下是各个修饰符的解释:
- CMD(Command):使用CMD键允许您选择备用模型,并在配置的情况下选择备用系统角色。
- OPT(Option):按住OPT键可以将响应直接粘贴到最前面的窗口中,而不是在对话框中显示。这对于快速处理和集成Kiki的输出非常有用。
- CTRL(Control):在使用CTRL键时,现有的上下文文件不会被重置。请注意,如果文件中现有消息的数量超过了工作流配置中设置的阈值,那么最早的消息将被移除。
- SHIFT:这个修饰符触发Kiki以对话框形式回复。这是Kiki回答聊天或从Alfred命令栏启动预设的默认方式。正如我们很快会学到的,这个“默认”可能会改变。
- FN(Function):按住FN键允许您在选定文本下方获取Kiki的回答。此选项仅在通过通用操作、热键、片段或外部触发器在选定文本上使用Kiki时可用。
- FN + SHIFT:这允许您将请求发送到在Kiki数据文件夹中的presets/models.json文件中配置的任何预设模型。重要提示:您必须重命名预设文件夹或使其可发现,并为使此功能正常工作配置一些模型。
了解这些修饰符及其功能有助于您更有效地使用Kiki CLI,并根据需要定制输出和交互方式。
添加自定义模型使用
这块只需要修改预设目录Preset
的models.json文件即可,添加一些内容:
|
|
在对话时按FN + SHIFT可选择它们。
自定义预设日常使用
我们修改预设目录Preset
的text.json文件,添加一些内容:
|
|
然后面对各种场景,随时调出:
Whisper语音
借助于Whisper的语音识别,我们可以语音输入,也可以直接丢一个声音文件给它,一会便返回文字给你。然后它同时提供了Run Preset
,打通了语音输入这个路径。
注意要使用这个功能需要自己安装它提供的快捷指令
,第一次使用还需要给相关权限,同时要设置一下文件路径,不然会报错。还有要注意文件路径不能有空格等,不然也会报错。
在当前APP内融入AI
Kiki有个比较好的能力是很方便融入当前你使用的软件,不论是写代码还是码字。比如,我要把前面这一段翻译为英文。
|
|
可以直接在这段话后面追加::kip
即可(Kiki Use as Prompt 的snippet配置keyword)。不需要跳出,也不需要来回复制、粘贴。如果是在VSCode中写代码,写个注释再唤起AI,有点像是在用Copilot的感觉了:)关键是这个模型是咱自己定义和任意切换的。
借助云同步
Kiki设计为数据可单独保存在指定目录,我们只需要将其数据目录设置为如Dropbox
或其它云盘目录,这样所有设备都在自动同步后,共享这些设置,包括历史会话等,体验上又上升一级。
尾声
以上就是对这两个工具的介绍,希望能对你的日常使用有所帮助。有了它们之后,小问题我就不会再打开网页了。另外,文中虽然提到了部分看似要提前准备的工作(如OneAPI聚合AI模型),但并不是必须的,两个workflow默认对GPT、Gemini等主流几个模型都支持得不错,达到了开箱即用,不必担心,上手轻松。如果你也想体验这种便捷和丝滑,赶紧安装试试看吧!
我是个爱折腾技术的工程师,也乐于分享。欢迎点赞、关注、分享,更欢迎一起探讨技术问题,共同学习,共同进步。为了获得更及时的文章推送,欢迎关注我的公众号: