只要一个接口访遍所有AI模型

随着国内国外各种模型层出不穷，爱折腾的人儿会今天试一下文心，明天试一下通义，后天看到Mistral又想体验下，甚至自己部署的本地模型能不能出拿出来跑跑对比着看能否一战？本文给一个我的实践方案。

前言

我曾经在私有化部署chatgpt-web中介绍过几种WebUI方案，也使用了较长一段时间，但其背后有两个问题一直没解决好：其一便是如何方便的对接这层出不穷的模型？像azure-openai-proxy和amazing-openai-api等作为Proxy，其支持的模型太有限啦。其二是如何更加清楚的了解各个模型的调用情况？我期待有更完整的统计数据查看。似乎这一点，这些开源方案都未考虑。

直到我无意中翻到oneapi(https://github.com/songquanpeng/one-api)，它大概满足了我的幻想。

OneAPI简介

现在的各种可私有化部署的chatgpt-web都是瞄着OpenAI API这个事实标准来的，而OneAPI就很好的继承了这一点，它们号称：“通过标准的 OpenAI API 格式访问所有的大模型，开箱即用”。

支持的模型比较多，当前(2024-3)已经有这么多了：

OpenAI ChatGPT 系列模型（支持 Azure OpenAI API）
Anthropic Claude 系列模型
Google PaLM2/Gemini 系列模型
Mistral 系列模型
百度文心一言系列模型
阿里通义千问系列模型
讯飞星火认知大模型
智谱 ChatGLM 系列模型
360 智脑
腾讯混元大模型
Moonshot AI
百川大模型
字节云雀大模型 (WIP)
MINIMAX
Groq
Ollama
零一万物

我迫切所要的第一个期待就这样无情被满足：）至于它提供的用户管理、充值等各种用于包装模型商业化的功能，咱自己搞着玩就不必关注了。但或许正因为要做用户管理和一些费用计费，所以各个接口的调用情况和日志也就齐全了，顺便满足了我的第二点期待。

OneAPI实操

部署OneAPI

在有容器就选择容器的时代，这个部署不要太简单，可以一句话搞定：

1
2
3
4
5
6
docker run --name one-api -d \
-p 3000:3000 \
-e TZ=Asia/Shanghai \
-v /home/kevin/one-api:/data \
--restart always \
justsong/one-api

如果你不想丢失你后面辛苦设置的配置，就需要像上面挂载一个卷给它。当然如果你有一个MySQL，将数据持久化给它是更棒的想法。你想试玩一下，上面就够啦～

配置渠道和模型

部署完毕后，访问所在机器的3000端口即可打开其Web页面。使用管理员用户root密码123456（看docker启动日志可得）登录后，就可以配置渠道了，这里的渠道可以理解为提供模型的平台。你可以根据手上的资源来创建相应的渠道。如下图是我创建的一个列表： oneapi-channel

同时，我们可以给每个渠道设置它所提供的模型列表，如下图： oneapi-channel-edit 需要注意清理一些你并不需要的模型，也可能需要手动录入一些模型名。当模型调用和实际不一致时，可能稍麻烦点配置个重定向（在azure openai时或能用上）。多数时候密钥填写一个即可，像百度文心一言的密钥需要如它提供所言，使用APIKey|SecretKey的方式，不要错填。而部分模型如果需要访问代理，也可以针对性的配置。

看起来这些配置还是挺合情合理的，每个都是有实打实用途。配置后想知道是否能正常，可以回到上面渠道页点击测试即可，顺便还可以看一下访问速度如何：）

当然，我相信每个玩模型的人手里都握了好多个key，如果你没有的话，国内随便申请几个玩一下，给你张机票随便求三连：

其中零一万物注册送60元，还是可以随便玩一下的，智能程度还不错：）遗憾的是腾讯混云大模型我还不能申请，要企业身份，希望早日开放吧～

添加专属令牌

经过上面配置，我们渠道和模型已经准备好了，接下来就是获得一个Key供使用。OneAPI有个好处便是，你访问各大模型的敏感信息如密钥和账户都是在它上面配置。然后它可创建令牌给你用于在其它Web端填写，甚至你可以放心的给朋友发送一个令牌，它有一个有效期和可设置费用情况。我们可以使用刚才的root账户创建，也可以另建一个账户创建令牌。 oneapi-token 然后点复制会获得你的API Key。注意新的账户创建后是没有钱的，你可以使用root用户在兑换->添加新的兑换码后生成一个兑换码给刚才这个用户，然后这个用户去兑换即可。这虽然多了一两步，但是很简单的操作。

在ChatGPT-Next-Web使用

现在，你可以选择一个自己喜欢的chatgpt-Web端来部署了，这里我推荐使用ChatGPT-Next-Web，主要原因是它支持随便切换模型，并且通知启动参数自定义模型列表。

1
2
3
4
5
docker run -d -p 3003:3000 \
   -e OPENAI_API_KEY=<上面获得的OneAPI sk-开头的密钥> \
   -e BASE_URL=http://<你的OneAPI部署的地址>:3000 \
   -e CUSTOM_MODELS=ERNIE-3.5-8K,Llama-2-70B-Chat,ERNIE-4.0-8K,Yi-34B-Chat,yi-34b-chat-0205,mistral,gemma,gemma-7b,gemma:7b \
   yidadaa/chatgpt-next-web

我们可以从如下地方选择切换模型，可以方便的和各处模型对话啦！ chatgpt-next-web

如果你有多个渠道提供了同一个模型，OneAPI后端会自动作负载均衡，当然你也可以指定使用某个渠道。当我看到OneAPI的渠道还支持Ollama时，便知道本地模型也有机会统一进来啦～

加入免费本地模型

本地模型意味着量大管饱，看到OneAPI支持Ollama后，我便打开了台式机的电源，我们一起试试看～

使用Ollama部署本地模型

如果你没有使用过Ollama，那么容我简单介绍两句，不对，只需要一句：

Get up and running with large language models locally.

它支持蛮多的主流开源模型的，你可以在这里查到，我就不搬运啦！为了获得较好的推理速度，你可能需要使用到GPU加速，我试过Macbook M系列芯片速度也是不错的。然后给几个命令（以下是在Windows中执行的，Linux也类似）：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
# 查看当前已经下载的模型列表
ollama list

# 下载模型(去选择你喜欢的模型吧)
ollama pull Mistral

# 修改监听端口(默认监听在127.0.0.1，为了能被外部访问到，需要修改)
$env:ollama_host = "0.0.0.0:8899"

# 开启服务
ollama serve

启动后，我们可验证是否可用：

1
2
3
4
5
6
curl http://<你的ollama部署的机器IP>:8899/api/chat -d '{
  "model": "mistral:latest",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

有返回即准备工作完成啦！恭喜！！如果网络不通，请检查防火墙或端口等是否正常哈～

在OneAPI中使用本地模型

我们在创建渠道时选择Ollama，然后手工填上自己要使用的模型，最重要的是后面在代理中写上自己ollama服务的地址即可，如下图所示： oneapi-ollama 之后我们修改一下ChatGPT-Next-Web的启动参数，将这些Ollama的模型暴露出去即可在页面中选择和使用啦～

后记

到这里，本文接近尾声了。OneAPI的功能不止于此，还有Embeding，绘画等API也适配了，未来还有进一步折腾的空间。不过虽说看起来完美了，但我还有点不爽。主要原因是模型的使用观测上依然不太够，我希望对各个模型使用的token数量和时间有详细统计，或许在OneAPI中集成Prometheus是个不错的主意，看了下Issue还没有涉及相关讨论，未来有空给集成一版看看效果，如果你也想要此功能，欢迎持续关注！

我是个爱折腾技术的工程师，也乐于分享。欢迎点赞、关注、分享，更欢迎一起探讨技术问题，共同学习，共同进步。为了获得更及时的文章推送，欢迎关注我的公众号：

微信公众号