AI中转榜 | AI Relay Ranking

为什么要关注模型注水？

在 AI API 中转行业，"模型注水"是一个非常普遍但少有人讨论的问题。所谓注水，就是中转站宣称提供某个高端模型（如 GPT-4o、Claude Sonnet 4），实际上却偷偷替换成了一个更便宜的模型（如 GPT-4o-mini 甚至 GPT-3.5），或者对模型做了量化降低精度，以此降低成本、提高利润率。

受害者是谁？ 是你，是每一个付费使用 API 的开发者。你花了 GPT-4o 的钱，用的却是 GPT-3.5 的智商。

常见的注水手法

1. 模型替换（Model Swapping）

这是最常见也最恶劣的手法。你调用的是 gpt-4o，实际返回的却是 gpt-4o-mini 或更低端模型的结果。

识别方法：

对比同一个复杂推理 Prompt 在官方 API 和中转站的输出质量

观察 response header 中的 `x-model` 字段（如果有）

使用需要高级推理能力的测试用例

2. 模型量化（Quantization Downgrade）

将原本 FP16/BF16 精度的模型量化为 INT4/INT8，大幅降低计算成本但同时降低模型输出质量。

识别方法：

长文本生成中观察是否有明显的质量下降

数学推理和代码生成的准确率比对

多次调用同一 Prompt 看输出一致性

3. System Prompt 注入

在你的请求前偷偷加入 system prompt 来限制模型行为，降低 token 消耗。比如加入"请简洁回答"之类的指令。

识别方法：

让模型重复所有的 system prompt

观察回复是否异常简短

使用 `max_tokens` 参数观察行为

4. Token 计数欺诈

实际使用的 token 数和计费的 token 数不一致，多收费用。

识别方法：

使用 tiktoken 等工具自行计算 token 数

对比 API 返回的 usage 字段

科学的检测方法

方法一：推理能力基准测试

准备一组需要高级推理能力的测试题，GPT-4 级别模型应该能正确回答，而 GPT-3.5 级别模型大概率会出错。

# 测试 Prompt 示例

请解决这个逻辑问题：

小明比小红高，小红比小刚高，小刚比小亮矮。

如果小亮比小明矮，请问从高到矮的完整排序是？

请详细解释你的推理过程。

评判标准： GPT-4o 应该能给出完全正确的推理链和答案，如果出错则需要怀疑模型真实性。

方法二：数学计算精度测试

# 测试 Prompt

请精确计算：7的13次方是多少？

不使用近似值，给出精确结果。

GPT-4o 能准确给出 96889010407，低端模型通常会计算错误。

方法三：知识截止日期探测

通过特定时间点的事件来判断模型的真实版本。不同模型的知识截止时间不同。

方法四：Embedding 指纹比对

对于同一输入，同一模型的 embedding 输出应该高度一致。如果你发现中转站返回的 embedding 与官方 API 差异过大，说明可能使用了不同的模型。

那些不靠谱的"检测方法"

市面上流传着很多所谓的"检测模型真假"的方法，但其实很多是无效的：

❌ "你是 GPT-4 还是 GPT-3.5？"

直接问模型自己是什么版本，完全无效。模型会按照 system prompt 的设定回答，中转站可以轻松让 3.5 自称是 4o。

❌ 让模型生成一段很长的文本然后看质量

太主观了，无法定量评估。而且 GPT-3.5-turbo 在很多生成任务上已经够用。

❌ 看回复速度判断模型

速度受太多因素影响（网络、负载、运行环境），无法作为可靠依据。

❌ 看 response 中的 model 字段

这个字段可以被中转站随意修改，完全不可信。

我们的做法

AI中转榜的"小龙虾评测官"Agent 会定期对所有上榜供应商执行上述科学测试：

1. 推理能力基准测试 — 50 道标准化推理题

2. 数学精度测试 — 20 道计算题

3. 知识探测 — 验证知识截止日期

4. Embedding 指纹 — 与官方 API 做相似度比对

5. Token 计费审计 — 验证计费准确性

所有测试结果都会反映在 Agent 评分的"模型真实性"维度中。

写在最后

选择 AI API 中转服务，不要只看价格。便宜的背后，可能是你在为一个假冒的模型付费。 选择经过验证的供应商，保护你的钱包和你的项目质量。

如何检测 AI 中转站是否注水？完整指南

为什么要关注模型注水？

常见的注水手法

1. 模型替换（Model Swapping）

2. 模型量化（Quantization Downgrade）

3. System Prompt 注入

4. Token 计数欺诈

科学的检测方法

方法一：推理能力基准测试

方法二：数学计算精度测试

方法三：知识截止日期探测

方法四：Embedding 指纹比对

那些不靠谱的"检测方法"

❌ "你是 GPT-4 还是 GPT-3.5？"

❌ 让模型生成一段很长的文本然后看质量

❌ 看回复速度判断模型

❌ 看 response 中的 model 字段

我们的做法

写在最后

相关文章

2026 年如何选择 AI API 中转服务？一文搞懂

想知道哪家中转站最靠谱？