关于 汤很热
一个人的 AI 海龟汤游戏
海龟汤是一种「我说一个奇怪的故事,你提是/否问题来推理出真相」的游戏。 展现给玩家的是 汤面,沉在水底的故事真相是 汤底。 它至少需要两个人才能玩 —— 一人当裁判,对玩家的猜测回答「是 / 否 / 无关」。
汤很热 是我做的一个 AI 海龟汤游戏:从 1500 个故事里筛选出 80 多个相对完整、有逻辑的汤, 让大模型当裁判。你有 8 次机会向 AI 提问,猜对或次数用尽就揭晓汤底。每个故事都配了插图和环境音。
背后的故事
人生中第一次接触海龟汤是初中英语课的课间,老师讲了一个故事: 一个男人走进餐厅点了海龟汤,吃完问服务员「这是真的海龟汤吗?」服务员说是, 他就举枪自杀了。请问为什么?
我们猜了好多轮,最后上课铃响了。后来我一直惦记着这个游戏。 去年 12 月,我做了第一版 GPTs 让 AI 自动生成故事, 但 AI 编的海龟汤味道寡淡 —— 海龟汤的魔力,本来就藏在那些血腥、重口、不合时宜的剧情里, 自动生成总会被审核拦下来。
今年 6 月我换了思路:故事不一定要 AI 生成,让 AI 当裁判就够了。 那晚我一个人在客厅看完了 1500 个海龟汤,大夏天的都觉得后背发凉, 最后挑出了 32 个开始写代码。这就是汤很热的雏形。
一篇论文
上线两周后,我发现很多用户在吐槽 AI 判错。把模型从 DeepSeek 换成当时最强的 Claude 3.5 Sonnet, 错判依然存在。我意识到 —— 海龟汤可能是个评测大模型推理能力的好基准: 不依赖背景知识、答案客观、用户的脑洞几乎无法穷尽,所以无法被作弊「刷分」。
于是我们标注了 4448 条真实用户猜测,跑了 11 个模型,写成了一篇论文, 提出了 TurtleBench。
我的其他作品
想了解更多关于作者,欢迎来我的主页:mazzzystar.com
有反馈或想聊一聊?欢迎到 社区 发帖。