谢赛宁七小时访谈：放开维特根斯坦

张小珺的播客叫"语言即世界"。她请来的嘉宾在第七个小时说：你们误读了这句话。

3 月 16 日，张小珺的《商业访谈录》上线了一期七小时的马拉松访谈。七小时——这个长度劝退了大多数听众。我自己分了三次才听完：第一次在通勤路上听到第二小时，觉得是一个不错的人物故事；第二次周末接着听，从第三小时开始坐直了身子；第三次熬到凌晨听完最后二十分钟，决定必须写这篇。

一个月过去了，我在社交媒体上看到的讨论大多停留在"谢赛宁拒绝了 Ilya 两次""杨立昆创业了"这些表层叙事上。但真正值得写的东西，散落在整场对话的中后段，而大部分人没有耐心抵达那里。

录制时间更早：2026 年春节，纽约布鲁克林，一栋凌乱的楼房里，张小珺和谢赛宁从下午两点聊到了凌晨。

谢赛宁的身份需要一串顿号：AMI Labs 联合创始人兼首席科学官、纽约大学教授、DiT 论文作者、前 Meta FAIR 和 Google DeepMind 研究员。但在这七个小时里，他只反复论证一件事：大语言模型不是通往通用智能的地基，它只是一根拐杖。

AMI Labs 刚刚官宣——首轮融资 10.3 亿美金、投前估值 35 亿美金、25 人团队、总部巴黎。联合创始人是图灵奖得主杨立昆。这家公司刻意不设在硅谷。谢赛宁的解释只有一句："硅谷已经被 LLM 给催眠了。"（原话用了一个英文梗：very LLM-pilled——意思是深陷其中，走火入魔。）

以下是我们的拆解和判断。

"LLM 不会死，但会 fade away"

这是谢赛宁在访谈第二个半小时说的原话。张小珺追问"LLM 为什么会凋零"，他用英文回了一句：We won't die, we just fade away——不会突然消亡，只会慢慢淡出。

他不是在否定大语言模型的价值。他自己"天天使用 LLM"，他承认 LLM 在知识检索、法律咨询、教育方面是"革命性的"。但他反对的是一个更大的命题：把 LLM 当作通用智能的地基。

他的论证很清晰：LLM 处理的是可以被 token 化的数字空间——文本、代码、结构化知识。但真实世界里大量的问题是连续的、高维的、有噪声的。一个工厂的传感器信号、一台 ICU 监护仪的波形、一辆自动驾驶汽车面对的物理环境——这些东西没有办法被切成一个个离散的 token。

"从 LLM 怎样一步一步推演到真正的通用机器人，这才是计算机视觉——或者说视觉智能——在新时代要解决的问题。"

杨立昆有一个著名的"蛋糕比喻"：蛋糕底座是自监督学习，上面一层是监督学习，再上面是强化学习。如果只有上面的樱桃（reinforcement learning），没有底座，你无法通向智能。谢赛宁在这期节目里把这个比喻更新了：LLM 就是那根拐杖——你可以走路，但跑不起来，也没法参加奥运会。

我的判断是：谢赛宁说的不是预言，而是一种分类。他把 AI 的应用光谱从左到右排开——一端是纯数字空间（聊天、代码、搜索），另一端是纯物理空间（机器人、工业控制、具身智能）。LLM 统治数字那端，没有争议；但越往物理那端走，语言的拐杖就越不够用。AMI Labs 赌的是右边那一半。

"我非常担心语言对视觉的污染"

如果上一段是学术判断，这一段就是情绪了。谢赛宁在访谈里明确说了"担心"这个词，而且说了两遍。

他担心的是一条传导链：叙事 → 资本 → 学术。顶层有一套"圣经"——AGI、scaling law、bitter lesson、LLM——这些关键词组成了硅谷当前的正统叙事。张小珺接了一句"现在的圣经啊"，谢赛宁没否认。

这套叙事从 OpenAI 和 Google 这样的工业界头部往下传导：资本跟着叙事走，论文选题跟着资本走。结果是，计算机视觉的研究者开始被迫把自己的工作包装成"多模态"或"视觉语言模型"，否则拿不到资源、发不了论文。

"多模态的介入带给我们巨大的好处，让我们可以很自由地定义问题。但巨大的风险在于，语言的介入导致很多多模态的任务其实跟视觉没有什么关系，纯粹是一个语言的问题。"

谢赛宁甚至用了一个更重的比喻："如果一直依赖某种捷径，人就废了；如果一直拄着拐，你也没有办法训练你大腿的肌肉。"

说实话，这段我倒回去听了两遍，第一遍觉得比喻太重了，第二遍觉得他可能真就是这个意思。这让我想到一个更大的背景。过去两年，从 Sora 到 Kling 到 Veo，视频生成模型赛道热得发烫。但这些模型本质上是在做"生成"——把所有视觉信息用 token 重建出来。谢赛宁和杨立昆的 JEPA 路线走的是反方向：不做生成，在抽象的表征空间里做预测。 不需要重建每一帧画面的每个像素，只需要在一个压缩的抽象空间里预判接下来会发生什么。

这不只是技术路线的差异。这是两种世界观：一种认为"把整个世界用语言和像素重建出来"就是智能，另一种认为"在脑子里预测世界的变化"才是智能。

两次拒绝 Ilya，最终答应杨立昆

技术信仰不是抽象的，它会具体化为人生选择。

2018 年，Ilya Sutskever 给谢赛宁打了一个电话，给了 OpenAI 的 offer。谢赛宁"什么都没说就拒了"——因为 Meta FAIR 有何恺明、Piotr Dollar、Ross Girshick，"计算机视觉的三驾马车"。在这三个人身边做视觉研究，比去 OpenAI 做语言更值。

2024 年，Ilya 离开 OpenAI 创办 SSI，又来找了。这次两人聊了一下午，话题是"怎样给未来的人工智能赋予爱的能力"——我没记错的话大概是这个意思，原话更哲学一些。但谢赛宁在最后问了一个关键问题："你对多模态怎么看？" Ilya 的回答是："这事已经解决得不错了。"

谢赛宁第二次说了 No。

"兄弟爬山，各自努力"——这是他对两条路线分歧的定性。但温和的措辞掩盖不了根本的分歧：你相不相信只靠语言就能走到通用智能。 Ilya 相信，谢赛宁和杨立昆不信。

那他为什么答应杨立昆？谢赛宁的原话很感性："跟杨立昆说话有点像哈利·波特一样给你施咒语。" 但感性背后是一致的技术判断——两人在"世界模型是什么"这个问题上"定义非常非常吻合"。谢赛宁甚至用了一句自嘲来描述自己对杨立昆核心理论 JEPA 的接受过程："从质疑 JEPA，到理解 JEPA，到成为 JEPA。"

放开维特根斯坦

这是全场七个小时的点睛之笔，压在了收尾二十分钟。

张小珺的播客工作室叫"语言即世界"。她把这个名字抛给谢赛宁，问他怎么看。谢赛宁事先写给她一句话：放开维特根斯坦。

他的批评极其具体：

第一，你们引错了。 "语言的边界就是我世界的边界"出自维特根斯坦早期的《逻辑哲学论》。但这句话有强烈的限定条件——维特根斯坦说的"语言"是指可以被命题刻画的东西，说的"世界"也只是这些命题所对应的世界，不是我们日常说的整个物理世界。拿这句话当 LLM 的哲学背书，是偷换概念。

第二，你们引的人后来自己推翻了自己。 维特根斯坦后期完全否定了早期的体系，转而提出了"语言游戏"的概念——语言本身的符号没有任何意义，它之所以产生意义，是因为它和真实世界的实践发生了关系。谢赛宁说了一句特别精准的话："这件事情就很'世界模型'——我们并不是说语言就能够完美地 represent 整个世界，我们说的是这个世界的实践、这个世界的 action 决定了语言这个游戏的内涵和外延。"

同样被误用的还有费曼。"What I cannot create, I do not understand"这句话被大量 AI 论文引用为"生成即理解"的背书。但费曼说的 create 和 understand，是在真实的物理世界里改造和认知，不是一个 diffusion model 的反向传播 loss。

谢赛宁对这种现象的总结很辛辣："可能也是我小时候写作文名人名言用多了，现在看到论文里引维特根斯坦就条件反射地不适。"

我的判断是——这里我不太确定谢赛宁本人会不会同意我的说法——这不是学术洁癖，这是一场解释权的争夺。当整个行业用维特根斯坦和费曼来为 LLM 的正统性背书时，谢赛宁做的事情是从哲学底层抽掉这块地砖——后期维特根斯坦说的"语言游戏"，恰恰是世界模型派的武器，不是 LLM 派的。 意义不来自符号本身，意义来自和世界的交互。这正是 JEPA 在做的事：不生成符号，而是在表征空间里预测世界的变化。

"隐形的世界"需要一个世界模型

如果维特根斯坦那段是哲学论证，这一段就是商业论证。

谢赛宁在节目里转述了杨立昆给他讲的创业逻辑："世界需要一个世界模型。在硅谷之外，在 LLM 的叙事之外，有一个隐形的世界。"

这个隐形世界里住着谁？农场主、医院、工厂、传感器网络——他们拿着 LLM 解决不了自己的核心问题。一个农业大棚需要预测未来 48 小时的温湿度变化来调整灌溉策略，一个飞机引擎需要根据传感器信号预判故障，一个 ICU 需要从连续波形里识别早期恶化信号。这些问题的共同点是：数据是连续的、高维的、有噪声的，不是语言，也不在互联网上。

谢赛宁的观察更进一步："YouTube 上的数据还是一个跟人类 for entertainment 需求非常 aligned 的数据分布。" 整个互联网的数据都是"表演性"的——为了被看到、被点赞、被传播。但训练世界模型需要的是"非表演性"的数据：工厂产线上的传感器日志、医院里未被公开的临床监测波形、农田里的土壤湿度时序。这些数据不会被转发、不会上热搜，但对世界模型来说至关重要。

这也解释了为什么 AMI Labs 选择巴黎做总部、四地分布（巴黎/纽约/蒙特利尔/新加坡）、刻意不在硅谷。这不是文艺青年的任性，而是客户在哪、数据在哪、人才在哪的逻辑——隐形世界的问题不在硅谷的 Sand Hill Road 上被定义，它们在全球各地的产线、病房和农田里被定义。

谢赛宁自称 underdog："跟 LLM 现在撬动的资源比，我们可能百分之几都不到。" 35 亿美金的估值在 LLM 赛道里排不进前五，但在"隐形世界"的赛道里，这可能是第一笔认真的押注。

声入商业说

这期七小时的访谈，容易被简化为"华人科学家的硅谷逆行记"或"杨立昆创业内幕"。但我认为它真正的价值在收尾的二十分钟——谢赛宁用一句"放开维特根斯坦"，把一场技术路线之争升格为一场哲学解释权的争夺。

LLM 阵营说"语言的边界就是世界的边界"，世界模型阵营说"你们连维特根斯坦自己后来都不信了的话都拿来当圣经"。这不是谁对谁错的问题——这是两种对"什么是智能"的根本回答：一种认为压缩语言就是压缩世界，另一种认为世界在语言之外。

访谈的结尾是《银河系漫游指南》的梗：生命、宇宙和一切的答案是 42，但你需要地球那么大的计算机才能算出来。谢赛宁说的世界模型，也许就是那台还没造出来的计算机。至于 LLM——它已经算出了 42，只是不知道问题是什么。

评论区话题：LLM 作为强大的"拐杖"，它的能力边界在哪里？

在小宇宙搜索"语言即世界"或"商业访谈录"收听原始节目。本文仅代表听澜个人观点，不构成对谢赛宁或 AMI Labs 观点的完整转述。

谢赛宁七小时访谈：放开维特根斯坦｜播客深度锐评

"LLM 不会死，但会 fade away"

"我非常担心语言对视觉的污染"

两次拒绝 Ilya，最终答应杨立昆

放开维特根斯坦

"隐形的世界"需要一个世界模型

声入商业说

留言

"LLM 不会死，但会 fade away"

"我非常担心语言对视觉的污染"

两次拒绝 Ilya，最终答应杨立昆

放开维特根斯坦

"隐形的世界"需要一个世界模型

声入商业说

继续阅读

各领风骚一百天｜广密谈硅谷御三家战略误判｜大模型季报第9集

胡渊鸣把世界模型拽回地面：AI 永远是生成器，不是执行器｜the prompt · Meshy

他亲手停掉小几十亿的 AI 缝合怪｜何小鹏的物理 AI 豪赌

留言