胡渊鸣把世界模型拽回地面：AI 永远是生成器，不是执行器

摩尔定律停了，iPhone 能用的算力和纯视频扩散世界模型之间差两个数量级。胡渊鸣用这道算术，把"世界模型"这个词拽回了地面。

2026 年 4 月 27 日，红杉中国的 the prompt 播客更新了一期 90 分钟长谈——嘉宾 Meshy.AI 创始人胡渊鸣，主播吴茗（红杉中国投资合伙人）。围绕三件事：三次转型找 PMF、AI 原生游戏、世界模型。

胡渊鸣简历好记：清华姚班、ACM 金牌、MIT 博士、太极图形作者、三十岁。Meshy 的数字也好记——据他节目里自述，过去 12 个月营收涨 14 倍、接近 4000 万美金 ARR、月度 20% 增长。但这期节目值得写的不是简历，是他对"世界模型"这个词的明确表态：不喜欢。

他用一道算术算清楚：video diffusion 路线推理侧峰值要 1000+ TFLOPS；消费级终端 NPU 只有几十 TOPs 量级，不让手机烧到爆炸能用的只剩几 TOPs——两条线差两个数量级。摩尔定律基本停了。

所以他给出另一个架构——Hybrid World Model：AI 负责生成，经典图形学负责执行。论据是 vibe coding 已经跑通了相同的 hybrid 范式——大模型写代码，CPU 负责跑。

我想拎出来的判断只有一条：AI 在技术栈里永远是生成器，不是执行器。这是胡渊鸣和当前多数"世界模型派"一条很清晰的分界线。

以下是我们的拆解和判断。

他先拒绝了"世界模型"这个词

节目里有一个瞬间很妙。吴茗说："世界模型这个词我不太喜欢，我们听了太多公司往里面塞各种东西。"胡渊鸣立刻接："我也不喜欢这个词。总有人采访我问我什么是世界模型。"

两个人——一个做 3D AIGC 的技术人，一个看了几百个 AI 项目的投资人——当场同意这个词已经变成了筐，什么都能往里装。

胡渊鸣接着给出了一个克制的定义：广义上，世界模型就是 given 我现在的历史状态，预测未来状态。"如果这样定义，两百年前牛顿就在做世界模型了。" 所以现在行业里说的世界模型，实际上是一个更窄的意思——用 video diffusion 或 video autoregressive model 做 next-frame prediction，预测下一帧世界长什么样。主要应用场景两个：具身智能的 robotics，以及游戏。

他游戏做得多，对后者想得更多。他的判断是：纯 pixel-based 的世界模型，无论用 diffusion 还是 autoregressive，有一个大问题——它对世界建模的计算量消耗非常非常大。

这是"不喜欢"这个词的第一层意义。不是情绪，是工程账。

两个数量级的算力鸿沟

这期播客有一段特别硬，藏在 52 分钟前后。胡渊鸣用一个极具体的例子解释 pixel-based 世界模型的荒谬：

"比如说，相机转三百六十度，吴茗你之前坐在我前面，相机转回来以后，你还坐在我前面。"

这件简单得不能再简单的事，对 video diffusion model 来说是灾难。它得靠神经网络学会"物体在视线外依然存在"这个物理规律。"大家费了老鼻子劲去解决，可能十 B 参数里面有五 B 都是在解决这个世界物理规律应该是什么样的。"

而传统游戏引擎解决这个问题的成本是——几乎为零。一个 3D 场景里的物体，不管相机转不转，它的坐标都在内存里。这是 60 年代图形学就已经想通的事情。

所以 Hybrid 架构的经济账就出来了：把传统游戏引擎在做的那一半继续交给传统游戏引擎，不要让神经网络重学一遍已经被写死在加减乘除里的物理规律。 AI 只做它真正擅长的——生成那些没法用规则硬编码的东西（武器组合、角色对话、意料之外的交互）。

胡渊鸣随手算了一笔：现在的 video diffusion world model 需要 1000 TFLOPS 以上算力，iPhone 17 的 NPU 可能 30-40 TOPs，实际可用的几 TOPs。差两个数量级。他一句话下了判断：

"摩尔定律基本上已经停止了，手机电池也不会有很大的进展，终端上的性能相对来说不会有太大改变。"

这是过去一年里我听到过的，对"端侧 AI 算力"特别冷静的一句话。大多数人讲摩尔定律停滞时都是作为背景铺垫，胡渊鸣是把它作为架构决策的直接输入。如果你不信摩尔定律能救你两个数量级，你就不会赌纯 pixel 世界模型能跑在消费电子上。 他不信，所以他赌 Hybrid。

这里需要补充的是：胡渊鸣的算力账隐含了一个前提——世界模型的瓶颈在消费终端（手机、PC）。这在游戏场景成立。但他自己也提到世界模型另一大场景是 robotics / 具身智能，那条线上机器人本体可以背更大的算力，iPhone 几 TOPs 不是它的约束。所以更精确的说法是：纯 pixel 世界模型在消费游戏里是结构性死局；在 robotics 里，结论要另算。 节目没强调这个区别，但读者值得记得。

Vibe coding 已经跑通的那条路

这期节目第二硬的论点，是胡渊鸣用 vibe coding 做类比证明 Hybrid 思路。

他的观察极简单：大家现在在做所谓的 vibe coding、vibe engineering，本质上是让大语言模型先写一套代码，再执行这个代码去解决问题，而不是让大语言模型直接解决所有问题。然后他顺手下了一个判断——"这也是一个 hybrid model，对吧？"

这一句我认为是全期节目信息密度最高的一处。因为过去两年 coding 这条线已经用脚投票选边站了：

Cursor / Claude Code / Codex 崛起——它们全都是"生成代码 → 执行代码"的两段式。
真正不生成代码、让模型 token 级别直接产出执行结果的路线（end-to-end neural），没拿到市场份额。
原因不是技术上做不到，是算力账不合算。让 transformer 亲自 token by token 执行排序算法，和让它写一行 sorted() 再交给 CPython 执行，前者耗的 FLOP 是后者的几千倍。

这条路径被胡渊鸣归纳成一句话：

"它永远是用 AI 去生成一套机制，生成一套中间表示，再用最廉价的方式去执行这套中间表示，然后去解决问题。"

他接着把结论推到世界模型身上："其实游戏是最复杂的软件形态。" 软件已经 hybrid 化了，游戏——作为一种更复杂的软件——没理由例外。Hybrid 不是权宜之计或者妥协方案，是已经在另一个领域被验证出来的工程正解。

这是整期节目很容易被低估的一个类比。 它的杀伤力在于：凡是你同意"vibe coding 是对的"，你也就很难反驳"Hybrid World Model 也是对的"——除非你能指出游戏和软件本质上有什么不同，让前者必须靠纯神经网络实现。代码是符号系统、视频是连续信号，这个差异真实存在；但它能不能撑住"纯神经网络架构"在游戏侧反超 hybrid，我目前还没看到令人信服的论证。

"AI 原生"的两条硬边界

Hybrid 是架构层面的判断。胡渊鸣在产品层面也画了两条更具体的线——他叫做 "AI 原生游戏" 的两个必要条件：

条件一：离开 AI 不能玩。 AI 在这个游戏里不是换皮，不是让画面更炫，而是核心机制必须有 AI 参与。"如果把 NPC 对话换成 AI 的就算 AI 原生游戏，那这个定义太便宜了。"
条件二：AI 的加入真的让游戏变好玩。 不是"拿着锤子找钉子"——手里有 AI 就硬塞进去。

两条同时满足，才算。

他们做的《黑箱》符合这两条：武器技能完全靠 AI 合成，每次给你的结果都不一样（意料之外），但又可以被玩家引导（情理之中）。去掉 AI 这游戏就无聊到玩不下去，有了 AI 它就成了一台惊喜发生器。

然后是第三个要素——AI 降低了门槛。"大语言模型用自然语言语料训练，新手老手都能用自己的直觉驱动它。"

这里他顺手打了一枪："游戏里生成一万个六十分的游戏没有任何意义，因为大家永远会去玩那个九十分的游戏。"这句话我建议所有做"AI 批量生成内容"的创业者钉在墙上。九十九个草稿不如一个作品。

这条产品判断和上面的技术架构是同一个底层逻辑的两个侧面：AI 的价值在于它能产生人力难以复制的变化（生成），而不是在于它能接管整个系统（执行）。 凡是想把 AI 放到执行位上的产品——无论是纯 pixel 世界模型还是"一键生成一千款小游戏"——都会撞上同一堵墙。

三次转型：从"我能做什么"到"用户要什么"

讲到这里必须把他人物线补上，否则前面的判断就只是纸上谈兵。

Meshy 不是胡渊鸣一开始就做的事。他在 MIT 博士期间做计算机图形学 + 物理仿真 + GPU 编译器，出来创业做的第一个产品是太极图形——一个高性能图形学计算框架。然后是一个渲染器软件。两个产品他后来都砍了。

节目里有一段他自述至暗时刻，大概是创业 18 个月前后：两个产品都没做起来，叠加家里老人去世，他一度想把钱还给投资人。

转机来自两件事。一件是某个用户告诉他："你这个渲染器软件我们不会付钱，但你软件里那些 3D 资产，我愿意付五块钱一个。" 这句话被胡渊鸣反复回味——用户愿意为什么付钱，是个比"我能造什么"更精准的问题。然后是 ChatGPT 和 Stable Diffusion 出来。他把前面积累的 3D 工程能力反过来用，做了第一个公开可用的文字生成 3D 模型产品——Meshy。

另一件是投资人那句话。他不敢和红杉说"我又要转型了"，拖着不沟通，最后还是打了电话。电话那头只问了一句："你这个业务现在到底是怎么回事？" 他如实说。对方说："好啊，你试一试，我支持你。"

这个细节在节目里他讲得很克制，但我认为这是整期节目里分量很重的一句非技术内容。它解释了很多 founder 说不出口的东西：不是钱救了你，是"还可以再试一次"这句话救了你。 而说这句话的能力，是投资机构能给 founder 的一种极稀缺的东西——不是 term sheet，是那通电话。

这段经历和前面的 Hybrid 论点有隐秘的呼应：胡渊鸣现在对"纯 pixel 世界模型"的冷静判断，底层是他对"技术能力与商业落地之间距离"的血泪认知。 太极是顶尖的技术，但它没找到付钱的人。渲染器是不错的工具，但用户只想要里面的资产。这两次转型给他装了一个 PMF 探测器——用户要的是结果，不是你造结果的技术路径。 Hybrid 之所以是他的答案，不是因为它"技术上更优雅"，而是因为它"能跑在用户手里"。

笔者个人观察：Hybrid 范式的跨领域迁移

这期节目抽象的地方不少，算力、架构、PMF，讨论都在云端。我补两个身边正在发生的观察，帮助判断 Hybrid 是不是真的跑得通。

一个是 Claude Code 这类 AI IDE 的迭代路径。 过去半年，Anthropic 和 Cursor 都在往"agent 写代码 + shell 执行 + 读 diff 再调整"的模式推进——本质上就是胡渊鸣说的"AI 生成中间表示、最廉价的方式执行"。反过来看，那些试图让模型直接输出可用二进制或直接模拟终端环境的尝试，至今没有真正拿到市场份额。两条路 2025 年都有资本下注，一年下来胜负已分——Hybrid 赢了。

另一个是 Unity 的困境和 Epic 的 pivot。 传统游戏引擎公司现在都面临同一个问题：他们的核心代码库是十年前写的 Hybrid 基建（渲染 + 物理 + 动画的经典实现），但管线的生成端还没被 AI 接管。谁能先把"AI 生成 + 经典引擎执行"这个裂缝补上——即胡渊鸣这种路径——谁就拿到下一代游戏引擎的叙事。Meshy 现在是在 3D 资产生成这一段撬开缺口，下一步往游戏主机制迁移，方向对了。

两条线叠起来看，Hybrid 不是 Meshy 的产品决策，是一个在软件领域已经赢过一次、正在游戏领域被接着验证的架构范式。胡渊鸣对世界模型的判断，普适性比他在节目里讲得还要大。

Founder 的三段迭代：胡渊鸣没讲清但值得拎出来的部分

节目的后半段从技术转到人。胡渊鸣自述作为 CEO 的三个版本：

V1：过度在意员工感受，每天 question 大家开不开心，结果公司变得像慈善机构，缺使命感。
V2：矫枉过正，为完成目标不吃不睡摧残自己，员工看了也垂头丧气。
V3（现在）：先照顾好自己，再给团队输血。"一个 founder 永远是先爱自己，多余的爱才能给团队。"

这段自白的价值在于，它反驳了硅谷那套"founder 必须 24/7 all-in"的狼性叙事，同时也没滑到另一个极端（佛系管理）。他的第三阶段说白了是一种工程化的自我管理：你是公司的 bottleneck，你挂了整条 pipeline 就停了，所以你的状态本身就是公司的产品。

但节目里有一个他没讲透的地方——V3 要成立，前提是公司已经过了生死线。 在没有 PMF 的 V1 V2 阶段，founder 需要一定程度的自我摧残来挤出信号；胡渊鸣自己坦承过，18 个月的至暗时刻里他不"松弛"。所以这三段迭代不是优越感递增，是业务阶段匹配不同 founder 模式：早期靠狠，中期靠规，成熟期靠松。这个差别节目里一笔带过，但读者值得注意。

吴茗提炼的那条主线：Motivation > Talent

这期节目我还想单独拎出主播的一个判断。吴茗在节目后段说了一件颠覆性的话："一路非常优秀、有很多光环的天才好学生，是要非常小心的。"

她的逻辑是：长期在一个维度上被正反馈强化的人，进入创业以后很难适应负反馈。 一旦事情不顺，他们会把问题归因给"身边的人"、"环境"、"世界"，而不是"我"。胡渊鸣是她见过的例外——"哪怕情况不那么顺，你跟我讲你的问题在哪，从来没跟我说我们非常好非常好。"

吴茗下了一个看 founder 的锚定：motivation 比 talent 重要得多。 具体是："这件事情有人做成了但不是我，我会遗憾"——有这股心气的 founder，九死一生里能扛过去；没有的，履历再漂亮也会在负反馈里碎掉。

这个判断和胡渊鸣的技术架构判断，最终指向同一件事：无论是做 AI，还是做 founder，都有一层"不可被算力或光环替代的东西"。 模型里，那层东西叫"经典执行器"——硬件的物理规律、牛顿力学、CPU 指令集。人身上，那层东西叫 motivation——为什么你非要做这个，非要做到底。

两者都是那个系统里"不会被 scale 掉"的基础层。AI 不会取代那层，融资也不会。

声入商业说

这一期的价值，不在于它介绍了 Meshy 或者 AI 原生游戏，而在于胡渊鸣把"世界模型"这个过热的词做了一次彻底的术语脱敏。用一道算力算术、一个 vibe coding 类比、一个 Meshy 的 ARR 曲线，他把这个词从 marketing slides 拽回到工程决策桌上。

在我们之前拆过的《谢赛宁七小时访谈：放开维特根斯坦》里，我们讨论过"LLM 不是通用智能的地基，只是一根拐杖"。谢赛宁把 LLM 推下了地基的位置，但没有完全回答什么来替代地基。胡渊鸣这一期是对那个问题的一个工程回答：地基还是那套老的经典图形学 + 物理引擎 + 算术运算，AI 叠在它上面做生成，不叠下去做替代。 拐杖换了一根更好的，但要走路还得靠腿——这两期合起来看，画面是完整的。

所以我们不搬运 90 分钟对谈，我们帮你判断：过去一年里所有跟你讲"世界模型"的公司，你只需要问一个问题——你这个东西，是 AI 生成后面还需要一套经典执行器，还是你想让 AI 自己顶到底？前者在工程上已被验证可行，后者在消费终端上还需要算力进化一个以上数量级。胡渊鸣的答案已经写在 Meshy 的 ARR 上。

评论区留给你：你用过哪些号称"AI 原生"的产品？按胡渊鸣的两条件（离开 AI 不能用 / AI 真的让它更好）筛一遍，还剩下几个？

点击"阅读原文"可以收听完整 90 分钟对谈。 也推荐去小宇宙搜索"the prompt"订阅这档播客——红杉中国做的，嘉宾多是 AI 产业一线的 founder 和研究者，是我们日常选题的常规索引来源之一。

胡渊鸣把世界模型拽回地面：AI 永远是生成器，不是执行器｜the prompt · Meshy

他先拒绝了"世界模型"这个词

两个数量级的算力鸿沟

Vibe coding 已经跑通的那条路

"AI 原生"的两条硬边界

三次转型：从"我能做什么"到"用户要什么"

笔者个人观察：Hybrid 范式的跨领域迁移

Founder 的三段迭代：胡渊鸣没讲清但值得拎出来的部分

吴茗提炼的那条主线：Motivation > Talent

声入商业说

留言

他先拒绝了"世界模型"这个词

两个数量级的算力鸿沟

Vibe coding 已经跑通的那条路

"AI 原生"的两条硬边界

三次转型：从"我能做什么"到"用户要什么"

笔者个人观察：Hybrid 范式的跨领域迁移

Founder 的三段迭代：胡渊鸣没讲清但值得拎出来的部分

吴茗提炼的那条主线：Motivation > Talent

声入商业说

继续阅读

谢赛宁七小时访谈：放开维特根斯坦｜播客深度锐评

龙虾的记忆战争｜黄东旭×庄明浩拆解AI

她给同行打5分，给自己打10分｜黄碧薇押注因果世界模型

留言