关于汤很热

一个人的 AI 海龟汤游戏

海龟汤是一种「我说一个奇怪的故事，你提是/否问题来推理出真相」的游戏。展现给玩家的是汤面，沉在水底的故事真相是汤底。它至少需要两个人才能玩 —— 一人当裁判，对玩家的猜测回答「是 / 否 / 无关」。

汤很热是我做的一个 AI 海龟汤游戏：从 1500 个故事里筛选出 80 多个相对完整、有逻辑的汤，让大模型当裁判。你有 8 次机会向 AI 提问，猜对或次数用尽就揭晓汤底。每个故事都配了插图和环境音。

背后的故事

人生中第一次接触海龟汤是初中英语课的课间，老师讲了一个故事：一个男人走进餐厅点了海龟汤，吃完问服务员「这是真的海龟汤吗？」服务员说是，他就举枪自杀了。请问为什么？

我们猜了好多轮，最后上课铃响了。后来我一直惦记着这个游戏。去年 12 月，我做了第一版 GPTs 让 AI 自动生成故事，但 AI 编的海龟汤味道寡淡 —— 海龟汤的魔力，本来就藏在那些血腥、重口、不合时宜的剧情里，自动生成总会被审核拦下来。

今年 6 月我换了思路：故事不一定要 AI 生成，让 AI 当裁判就够了。那晚我一个人在客厅看完了 1500 个海龟汤，大夏天的都觉得后背发凉，最后挑出了 32 个开始写代码。这就是汤很热的雏形。

上线两周后，我发现很多用户在吐槽 AI 判错。把模型从 DeepSeek 换成当时最强的 Claude 3.5 Sonnet，错判依然存在。我意识到 —— 海龟汤可能是个评测大模型推理能力的好基准：不依赖背景知识、答案客观、用户的脑洞几乎无法穷尽，所以无法被作弊「刷分」。

于是我们标注了 4448 条真实用户猜测，跑了 11 个模型，写成了一篇论文，提出了 TurtleBench。

想了解更多关于作者，欢迎来我的主页：mazzzystar.com

有反馈或想聊一聊？欢迎到社区发帖。