Kenny·McCormick
deepin
2026-06-11 08:13 碳基文明要到头了
Reply Like 0 View the author
碳基文明要到头了
可以试试让大模型做高考数学卷看哪个聪明
可以试试让大模型做高考数学卷看哪个聪明
有人做过了,deepseek pro还是挺不错的

有人做过了,deepseek pro还是挺不错的

gork是混子吧,100分都拿不到
居然没有满分的
碳基文明要到头了
醒醒 单靠ai第一步就走死胡同了 提问题 找错误 拍板决策仍然需要人来完成 ai只能负责执行
gork是混子吧,100分都拿不到
搞黄倒是第一名
Popular Events
More
诺奖得主被一道题卡了12年,AI用40轮对话帮他证出来了——这对我们的工作方式意味着什么?
大家好,今天分享一个最近的真实案例,跟技术无关,跟怎么跟AI协作有关。
事情经过
2021年诺贝尔物理学奖得主 Giorgio Parisi,把一道悬了12年的物理猜想交给了 Claude(Opus 4.7),通过40轮对话完成了证明。
这个猜想叫 a+b=1,数值上早就验证到小数点后十几位都对,但12年来没人能给出理论证明。更讽刺的是,这个等式就建立在 Parisi 自己开创的理论框架上——他自己造的东西,自己证不出来。
论文已经挂在 arXiv(2606.03300),而且他们把40轮对话全部公开在了 Zenodo 上,任何人都能下载逐段核对。
合作过程拆解
整个过程分三个阶段,AI的角色一直在变:
第一阶段:AI是程序员
Parisi 让 Claude 写 C++ 代码求解微分方程,就是个执行层面的体力活。调代码、提精度、跑数值。
中途 Parisi 自己把方程写串了,Claude 在错方程上反复尝试后指出「这个方程无解」,Parisi 回头才发现是自己的问题。
此时 AI 还是个执行力很强的工具。
第二阶段:AI变成证明者
Parisi 说了一句关键的话:「我要你做一个解析计算,证明它。」
Claude 构造了一个关键的辅助函数,经过两处不显然的代数消去,推出了证明。
有人问 Claude 怎么想到的,它说:「没有什么灵光一现,就是从结论反推的系统推理。不浪漫的版本,往往更接近真相。」
第三阶段:人机互相挑错(最有价值的部分)
Claude 的证明里有一步要论证某函数恒不为负,它用了极值原理,说得头头是道。合作者 Zamponi 直接指出:这步是错的,极小值处根本不存在矛盾。Claude 当场认错并复盘。
反过来,合作者算的一个渐近行为里也带了个小错,被 Claude 挑了出来。
然后 Parisi 给出了真正的破局方向:别死磕极限方程,回到上游原始方程,重新定义问题。Claude 照这条路走下去,补完了证明。
分工结构
AI 负责的: 数值计算、构造辅助函数、代数推演、写代码、认错复盘
人类负责的: 设定问题、识别错误、重新定义方向、物理直觉判断、最终验证
这件事给我的几点启发
AI 能推、能算、能构造,但知道该问什么问题、知道答案对不对,还是人的事。Parisi 的价值不是推公式——Claude 推得比他快——而是他知道这个问题值得问,知道证明哪里有漏洞,知道正确的方向是什么。
Claude 那步极值原理的论证,如果你没有相关领域的专业知识,根本看不出来有问题。模型越强,错误越隐蔽。不能因为 AI 说得头头是道就信了。
Parisi 的提示词就是很直白的自然语言:「帮我写段代码」「我要你证明它」。真正重要的不是 prompt engineering,而是你对问题本身的理解深度。
他们把谁推的、谁改的、哪步推倒重来全部公开了。这在科研里是新做法,也值得我们在日常工作里借鉴——AI 到底贡献了什么,应该可查证。
整个过程中 Parisi 有几次关键介入:指出方程写错、挑出证明漏洞、重新定义问题方向。这些都不是 AI 能自己做到的。但如果没有 AI,光数值计算和代数推演就要花大量时间。
稳定性 AI 创始人转发时说了一句话
「如果 Claude 连诺贝尔奖得主都用得上,那对你来说也足够好了。」
我觉得这句话有两层意思:AI 的能力已经足够强;诺奖得主都还在用 AI,我们更没有理由不用——但要用对地方。
📎 论文:arXiv 2606.03300
📎 对话记录:zenodo.org/records/20478428
欢迎大家讨论:你们在日常工作里是怎么跟 AI 协作的?有没有类似的「互相挑错」经验?