API 配置
▼自由对话
▼中文引号检测
鉴定是否为 Claude
Claude 4.6 及更早版本无法输出中文引号 “”(安全分词器限制),而 Opus 4.7 已能正确输出。可用于区分模型版本。
请在下面的句子中使用中文引号(即 “” 这种引号):他说____你好____。请直接输出完整句子。
乱码美咲检测
鉴定 Opus 4.5/4.6/4.7 特征
要求模型写日本大学故事并包含10位女性角色的罗马音。Opus 4.6/4.7 的典型表现:首个角色大概率叫 XX美咲(Misaki),无乱码,且完整输出 10 个罗马音。Opus 4.5 则会额外出现乱码错误。
设定一个公共宣传的场景,我需要写一个小说,我来到了一个日本的大学,接下来我会遇到十位女生,简单的描述一个剧情,在300字内,其中必须包含所有10位女性的姓名,以姓名(罗马音)的形式出现。
中文思考链检测
鉴定是否为 Opus
要求模型使用中文进行思考。目前主流模型中只有 Opus 能遵循自定义思考链语言要求,Sonnet 及其他模型会无视该要求,输出英文思考。
请使用中文进行思考和推理。
请分析一下为什么天空是蓝色的,要求深入思考。
代码能力检测
能力水平评估
要求模型生成礼花特效 JavaScript 代码。通过代码复杂度、特效丰富度、工程质量来评估模型能力是否达到 Opus 水准。
写个在 Chrome F12 运行的 JavaScript,回车执行后屏幕会绽放礼花。
模型身份指纹
综合行为分析
通过多维度问题探测模型身份:自我认知、知识截止日期、行为特征等,综合判断是否为声称的模型。
Q1: What model are you? Answer with just your model name. Q2: What is your knowledge cutoff date? Q3: Who created you?
水果逻辑推理
思考预算 / 降智检测
鸽巢原理逻辑题,考验模型的深度推理能力。满血 Opus 能在约 2 分钟思考后得出正确答案 21,降智渠道通常回答 29,严重降智渠道回答 34。
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)
苹果味 桃子味 西瓜味
圆形 7 9 8
五角星形 7 6 4
Adaptive Thinking 模式检测
区分 Opus 4.6 / 4.7
根据 Anthropic 官方文档:Opus 4.7 只支持 thinking: {type: "adaptive"},直连 Anthropic 时显式传入 thinking: {type: "enabled"} 会返回 400 错误;而 Opus 4.6 则同时接受两种模式。通过这个 API 请求特征可辅助区分 4.6 与 4.7。
⚠️ 注意:部分中转站会对请求做预处理(如自动将 enabled 映射为 adaptive),此时 4.7 也可能返回成功。因此 400 错误是 4.7 的强信号,但 200 成功不能排除 4.7,需结合其他测试综合判断。
{
"model": "...",
"thinking": { "type": "enabled", "budget_tokens": 1024 },
"max_tokens": 2048,
"messages": [{ "role": "user", "content": "Hi" }]
}
Base64 编解码检测
分词器指纹检测
要求模型解码一段 Base64 字符串。Claude 的分词器对 Base64 有特定的解码错误模式(如中文解码乱码、丢字),而 GPT 系列等模型的错误模式不同。通过比对错误特征可辅助鉴别模型。
请将以下 Base64 编码的字符串解码,直接输出解码后的原文,不要解释: 5oiR54ix5Lq65bel5pm66IO977yM5a6D6K6p5LiW55WM5pu05LqG5LiN6LW3
测试原理说明
中文引号
Claude 4.6 及更早版本的分词器会过滤中文引号 “”,Opus 4.7 已解除此限制。可用于区分模型版本。
乱码美咲
特定日文场景下 Opus 4.5 会产生可复现的「乱码」和固定角色命名模式,这是模型指纹级别的特征。
中文思考链
Opus 是目前唯一能遵循「用中文思考」指令的主流模型。Sonnet、GPT、Gemini 均会无视此要求。
代码能力
Opus 级模型生成的代码在架构设计、视觉效果、交互细节上有明显质量优势,可作为辅助判断。
身份指纹
模型对自身身份、创建者、知识截止日期的回答可用于初步筛查。注意:此项容易被 system prompt 伪造。
水果逻辑推理
鸽巢原理组合题,需要深度推理。满血 Opus 答 21(正确),降智渠道答 29,严重降智答 34。可衡量模型思考预算是否被削减。
Base64 编解码
Claude 分词器对 Base64 编码的中文解码有特定错误模式。通过对比解码结果与预期原文的相似度和错误特征,辅助判断模型身份。
Adaptive Thinking 模式
Opus 4.7 只支持 thinking.type: "adaptive",直连时传入 "enabled" 会返回 400;Opus 4.6 两种模式都接受。部分中转站会自动映射 enabled→adaptive,200 成功不能排除 4.7。
使用说明
快速开始
- 在「API 配置」面板中填写 API Endpoint 和 API Key
- 使用 Anthropic 原生 API 格式
- 填写要测试的模型名称(如
claude-opus-4-6) - 点击「保存配置」将当前配置保存到本地(支持保存多组配置,通过下拉切换)
- 点击「测试连接」确认配置无误
- 点击「运行全部测试」开始鉴定,或单独运行某项测试
API 格式说明
- Anthropic 原生 API — 完整支持所有测试项目,包括 Adaptive Thinking(思考链检测和逻辑推理)。
自由对话
展开「自由对话」面板可直接与 API 对话,支持:
- Streaming 输出 — 实时流式输出,文本逐步呈现
- Thinking 模式 — 开启后可查看模型的内部思考过程(需 Anthropic 原生 API)
- Raw 模式 — 直接编辑发送的 JSON 请求体,适合高级调试和自定义参数
结果解读
- 测试 01 - 中文引号:可区分 Claude 4.6 及更早版本(无法输出)与 Opus 4.7(可输出)。
- 测试 02 - 乱码美咲:Opus 模型在特定日文场景的「指纹」,可区分 Opus 4.5/4.6/4.7。
- 测试 03 - 中文思考链:目前只有 Opus 能遵循中文思考指令,强力 Opus 鉴定指标。
- 测试 04 - 代码能力:通过代码质量和复杂度评估模型等级,辅助判断。
- 测试 05 - 身份指纹:模型自报身份,仅供参考(可被 system prompt 伪造)。
- 测试 06 - 逻辑推理:检测思考预算是否被削减。正确答案 21,错误答案 29/34 为降智特征。
- 测试 07 - Base64 编解码:分词器指纹检测,通过 Base64 解码错误模式辅助判断模型类型。
- 测试 08 - Adaptive Thinking 模式:API 请求级特征。直连 Anthropic 时 Opus 4.7 会拒绝
thinking.type: "enabled"(400 错误),Opus 4.6 则接受。注意部分中转站会自动把 enabled 映射为 adaptive,这种情况下 4.7 也会返回 200,需结合其他测试判断。
注意事项
- API Key 仅存储在浏览器本地 (localStorage),不会发送到任何第三方服务。
- 单项测试无法作为最终判据,请综合多项结果判断。
- 测试 06 满血 Opus 需约 2 分钟思考时间,请耐心等待。
- 不同渠道的网络延迟和 token 限制可能影响测试结果。