张小珺的播客叫"语言即世界"。她请来的嘉宾在第七个小时说:你们误读了这句话。


3 月 16 日,张小珺的《商业访谈录》上线了一期七小时的马拉松访谈。七小时——这个长度劝退了大多数听众。我自己分了三次才听完:第一次在通勤路上听到第二小时,觉得是一个不错的人物故事;第二次周末接着听,从第三小时开始坐直了身子;第三次熬到凌晨听完最后二十分钟,决定必须写这篇。

一个月过去了,我在社交媒体上看到的讨论大多停留在"谢赛宁拒绝了 Ilya 两次""杨立昆创业了"这些表层叙事上。但真正值得写的东西,散落在整场对话的中后段,而大部分人没有耐心抵达那里。

录制时间更早:2026 年春节,纽约布鲁克林,一栋凌乱的楼房里,张小珺和谢赛宁从下午两点聊到了凌晨。

谢赛宁的身份需要一串顿号:AMI Labs 联合创始人兼首席科学官、纽约大学教授、DiT 论文作者、前 Meta FAIR 和 Google DeepMind 研究员。但在这七个小时里,他只反复论证一件事:大语言模型不是通往通用智能的地基,它只是一根拐杖。

AMI Labs 刚刚官宣——首轮融资 10.3 亿美金、投前估值 35 亿美金、25 人团队、总部巴黎。联合创始人是图灵奖得主杨立昆。这家公司刻意不设在硅谷。谢赛宁的解释只有一句:"硅谷已经被 LLM 给催眠了。"(原话用了一个英文梗:very LLM-pilled——意思是深陷其中,走火入魔。)

以下是我们的拆解和判断。

"LLM 不会死,但会 fade away"

这是谢赛宁在访谈第二个半小时说的原话。张小珺追问"LLM 为什么会凋零",他用英文回了一句:We won't die, we just fade away——不会突然消亡,只会慢慢淡出。

他不是在否定大语言模型的价值。他自己"天天使用 LLM",他承认 LLM 在知识检索、法律咨询、教育方面是"革命性的"。但他反对的是一个更大的命题:把 LLM 当作通用智能的地基。

他的论证很清晰:LLM 处理的是可以被 token 化的数字空间——文本、代码、结构化知识。但真实世界里大量的问题是连续的、高维的、有噪声的。一个工厂的传感器信号、一台 ICU 监护仪的波形、一辆自动驾驶汽车面对的物理环境——这些东西没有办法被切成一个个离散的 token。

"从 LLM 怎样一步一步推演到真正的通用机器人,这才是计算机视觉——或者说视觉智能——在新时代要解决的问题。"

杨立昆有一个著名的"蛋糕比喻":蛋糕底座是自监督学习,上面一层是监督学习,再上面是强化学习。如果只有上面的樱桃(reinforcement learning),没有底座,你无法通向智能。谢赛宁在这期节目里把这个比喻更新了:LLM 就是那根拐杖——你可以走路,但跑不起来,也没法参加奥运会。

我的判断是:谢赛宁说的不是预言,而是一种分类。他把 AI 的应用光谱从左到右排开——一端是纯数字空间(聊天、代码、搜索),另一端是纯物理空间(机器人、工业控制、具身智能)。LLM 统治数字那端,没有争议;但越往物理那端走,语言的拐杖就越不够用。AMI Labs 赌的是右边那一半。

"我非常担心语言对视觉的污染"

如果上一段是学术判断,这一段就是情绪了。谢赛宁在访谈里明确说了"担心"这个词,而且说了两遍。

他担心的是一条传导链:叙事 → 资本 → 学术。顶层有一套"圣经"——AGI、scaling law、bitter lesson、LLM——这些关键词组成了硅谷当前的正统叙事。张小珺接了一句"现在的圣经啊",谢赛宁没否认。

这套叙事从 OpenAI 和 Google 这样的工业界头部往下传导:资本跟着叙事走,论文选题跟着资本走。结果是,计算机视觉的研究者开始被迫把自己的工作包装成"多模态"或"视觉语言模型",否则拿不到资源、发不了论文。

"多模态的介入带给我们巨大的好处,让我们可以很自由地定义问题。但巨大的风险在于,语言的介入导致很多多模态的任务其实跟视觉没有什么关系,纯粹是一个语言的问题。"

谢赛宁甚至用了一个更重的比喻:"如果一直依赖某种捷径,人就废了;如果一直拄着拐,你也没有办法训练你大腿的肌肉。"

说实话,这段我倒回去听了两遍,第一遍觉得比喻太重了,第二遍觉得他可能真就是这个意思。这让我想到一个更大的背景。过去两年,从 Sora 到 Kling 到 Veo,视频生成模型赛道热得发烫。但这些模型本质上是在做"生成"——把所有视觉信息用 token 重建出来。谢赛宁和杨立昆的 JEPA 路线走的是反方向:不做生成,在抽象的表征空间里做预测。 不需要重建每一帧画面的每个像素,只需要在一个压缩的抽象空间里预判接下来会发生什么。

这不只是技术路线的差异。这是两种世界观:一种认为"把整个世界用语言和像素重建出来"就是智能,另一种认为"在脑子里预测世界的变化"才是智能。

两次拒绝 Ilya,最终答应杨立昆

技术信仰不是抽象的,它会具体化为人生选择。

2018 年,Ilya Sutskever 给谢赛宁打了一个电话,给了 OpenAI 的 offer。谢赛宁"什么都没说就拒了"——因为 Meta FAIR 有何恺明、Piotr Dollar、Ross Girshick,"计算机视觉的三驾马车"。在这三个人身边做视觉研究,比去 OpenAI 做语言更值。

2024 年,Ilya 离开 OpenAI 创办 SSI,又来找了。这次两人聊了一下午,话题是"怎样给未来的人工智能赋予爱的能力"——我没记错的话大概是这个意思,原话更哲学一些。但谢赛宁在最后问了一个关键问题:"你对多模态怎么看?" Ilya 的回答是:"这事已经解决得不错了。"

谢赛宁第二次说了 No。

"兄弟爬山,各自努力"——这是他对两条路线分歧的定性。但温和的措辞掩盖不了根本的分歧:你相不相信只靠语言就能走到通用智能。 Ilya 相信,谢赛宁和杨立昆不信。

那他为什么答应杨立昆?谢赛宁的原话很感性:"跟杨立昆说话有点像哈利·波特一样给你施咒语。" 但感性背后是一致的技术判断——两人在"世界模型是什么"这个问题上"定义非常非常吻合"。谢赛宁甚至用了一句自嘲来描述自己对杨立昆核心理论 JEPA 的接受过程:"从质疑 JEPA,到理解 JEPA,到成为 JEPA。"

放开维特根斯坦

这是全场七个小时的点睛之笔,压在了收尾二十分钟。

张小珺的播客工作室叫"语言即世界"。她把这个名字抛给谢赛宁,问他怎么看。谢赛宁事先写给她一句话:放开维特根斯坦。

他的批评极其具体:

第一,你们引错了。 "语言的边界就是我世界的边界"出自维特根斯坦早期的《逻辑哲学论》。但这句话有强烈的限定条件——维特根斯坦说的"语言"是指可以被命题刻画的东西,说的"世界"也只是这些命题所对应的世界,不是我们日常说的整个物理世界。拿这句话当 LLM 的哲学背书,是偷换概念。

第二,你们引的人后来自己推翻了自己。 维特根斯坦后期完全否定了早期的体系,转而提出了"语言游戏"的概念——语言本身的符号没有任何意义,它之所以产生意义,是因为它和真实世界的实践发生了关系。谢赛宁说了一句特别精准的话:"这件事情就很'世界模型'——我们并不是说语言就能够完美地 represent 整个世界,我们说的是这个世界的实践、这个世界的 action 决定了语言这个游戏的内涵和外延。"

同样被误用的还有费曼。"What I cannot create, I do not understand"这句话被大量 AI 论文引用为"生成即理解"的背书。但费曼说的 create 和 understand,是在真实的物理世界里改造和认知,不是一个 diffusion model 的反向传播 loss。

谢赛宁对这种现象的总结很辛辣:"可能也是我小时候写作文名人名言用多了,现在看到论文里引维特根斯坦就条件反射地不适。"

我的判断是——这里我不太确定谢赛宁本人会不会同意我的说法——这不是学术洁癖,这是一场解释权的争夺。当整个行业用维特根斯坦和费曼来为 LLM 的正统性背书时,谢赛宁做的事情是从哲学底层抽掉这块地砖——后期维特根斯坦说的"语言游戏",恰恰是世界模型派的武器,不是 LLM 派的。 意义不来自符号本身,意义来自和世界的交互。这正是 JEPA 在做的事:不生成符号,而是在表征空间里预测世界的变化。

"隐形的世界"需要一个世界模型

如果维特根斯坦那段是哲学论证,这一段就是商业论证。

谢赛宁在节目里转述了杨立昆给他讲的创业逻辑:"世界需要一个世界模型。在硅谷之外,在 LLM 的叙事之外,有一个隐形的世界。"

这个隐形世界里住着谁?农场主、医院、工厂、传感器网络——他们拿着 LLM 解决不了自己的核心问题。一个农业大棚需要预测未来 48 小时的温湿度变化来调整灌溉策略,一个飞机引擎需要根据传感器信号预判故障,一个 ICU 需要从连续波形里识别早期恶化信号。这些问题的共同点是:数据是连续的、高维的、有噪声的,不是语言,也不在互联网上。

谢赛宁的观察更进一步:"YouTube 上的数据还是一个跟人类 for entertainment 需求非常 aligned 的数据分布。" 整个互联网的数据都是"表演性"的——为了被看到、被点赞、被传播。但训练世界模型需要的是"非表演性"的数据:工厂产线上的传感器日志、医院里未被公开的临床监测波形、农田里的土壤湿度时序。这些数据不会被转发、不会上热搜,但对世界模型来说至关重要。

这也解释了为什么 AMI Labs 选择巴黎做总部、四地分布(巴黎/纽约/蒙特利尔/新加坡)、刻意不在硅谷。这不是文艺青年的任性,而是客户在哪、数据在哪、人才在哪的逻辑——隐形世界的问题不在硅谷的 Sand Hill Road 上被定义,它们在全球各地的产线、病房和农田里被定义。

谢赛宁自称 underdog:"跟 LLM 现在撬动的资源比,我们可能百分之几都不到。" 35 亿美金的估值在 LLM 赛道里排不进前五,但在"隐形世界"的赛道里,这可能是第一笔认真的押注。

声入商业说

这期七小时的访谈,容易被简化为"华人科学家的硅谷逆行记"或"杨立昆创业内幕"。但我认为它真正的价值在收尾的二十分钟——谢赛宁用一句"放开维特根斯坦",把一场技术路线之争升格为一场哲学解释权的争夺。

LLM 阵营说"语言的边界就是世界的边界",世界模型阵营说"你们连维特根斯坦自己后来都不信了的话都拿来当圣经"。这不是谁对谁错的问题——这是两种对"什么是智能"的根本回答:一种认为压缩语言就是压缩世界,另一种认为世界在语言之外。

访谈的结尾是《银河系漫游指南》的梗:生命、宇宙和一切的答案是 42,但你需要地球那么大的计算机才能算出来。谢赛宁说的世界模型,也许就是那台还没造出来的计算机。至于 LLM——它已经算出了 42,只是不知道问题是什么。

评论区话题:LLM 作为强大的"拐杖",它的能力边界在哪里?

在小宇宙搜索"语言即世界"或"商业访谈录"收听原始节目。本文仅代表听澜个人观点,不构成对谢赛宁或 AMI Labs 观点的完整转述。