摩尔定律停了,iPhone 能用的算力和纯视频扩散世界模型之间差两个数量级。胡渊鸣用这道算术,把"世界模型"这个词拽回了地面。


2026 年 4 月 27 日,红杉中国的 the prompt 播客更新了一期 90 分钟长谈——嘉宾 Meshy.AI 创始人胡渊鸣,主播吴茗(红杉中国投资合伙人)。围绕三件事:三次转型找 PMF、AI 原生游戏、世界模型。

胡渊鸣简历好记:清华姚班、ACM 金牌、MIT 博士、太极图形作者、三十岁。Meshy 的数字也好记——据他节目里自述,过去 12 个月营收涨 14 倍、接近 4000 万美金 ARR、月度 20% 增长。但这期节目值得写的不是简历,是他对"世界模型"这个词的明确表态:不喜欢

他用一道算术算清楚:video diffusion 路线推理侧峰值要 1000+ TFLOPS;消费级终端 NPU 只有几十 TOPs 量级,不让手机烧到爆炸能用的只剩几 TOPs——两条线差两个数量级。摩尔定律基本停了。

所以他给出另一个架构——Hybrid World Model:AI 负责生成,经典图形学负责执行。论据是 vibe coding 已经跑通了相同的 hybrid 范式——大模型写代码,CPU 负责跑。

我想拎出来的判断只有一条:AI 在技术栈里永远是生成器,不是执行器。这是胡渊鸣和当前多数"世界模型派"一条很清晰的分界线。

以下是我们的拆解和判断。

他先拒绝了"世界模型"这个词

节目里有一个瞬间很妙。吴茗说:"世界模型这个词我不太喜欢,我们听了太多公司往里面塞各种东西。"胡渊鸣立刻接:"我也不喜欢这个词。总有人采访我问我什么是世界模型。"

两个人——一个做 3D AIGC 的技术人,一个看了几百个 AI 项目的投资人——当场同意这个词已经变成了筐,什么都能往里装。

胡渊鸣接着给出了一个克制的定义:广义上,世界模型就是 given 我现在的历史状态,预测未来状态。"如果这样定义,两百年前牛顿就在做世界模型了。" 所以现在行业里说的世界模型,实际上是一个更窄的意思——用 video diffusion 或 video autoregressive model 做 next-frame prediction,预测下一帧世界长什么样。主要应用场景两个:具身智能的 robotics,以及游戏。

他游戏做得多,对后者想得更多。他的判断是:纯 pixel-based 的世界模型,无论用 diffusion 还是 autoregressive,有一个大问题——它对世界建模的计算量消耗非常非常大。

这是"不喜欢"这个词的第一层意义。不是情绪,是工程账。

两个数量级的算力鸿沟

这期播客有一段特别硬,藏在 52 分钟前后。胡渊鸣用一个极具体的例子解释 pixel-based 世界模型的荒谬:

"比如说,相机转三百六十度,吴茗你之前坐在我前面,相机转回来以后,你还坐在我前面。"

这件简单得不能再简单的事,对 video diffusion model 来说是灾难。它得靠神经网络学会"物体在视线外依然存在"这个物理规律。"大家费了老鼻子劲去解决,可能十 B 参数里面有五 B 都是在解决这个世界物理规律应该是什么样的。"

而传统游戏引擎解决这个问题的成本是——几乎为零。一个 3D 场景里的物体,不管相机转不转,它的坐标都在内存里。这是 60 年代图形学就已经想通的事情。

所以 Hybrid 架构的经济账就出来了:把传统游戏引擎在做的那一半继续交给传统游戏引擎,不要让神经网络重学一遍已经被写死在加减乘除里的物理规律。 AI 只做它真正擅长的——生成那些没法用规则硬编码的东西(武器组合、角色对话、意料之外的交互)。

胡渊鸣随手算了一笔:现在的 video diffusion world model 需要 1000 TFLOPS 以上算力,iPhone 17 的 NPU 可能 30-40 TOPs,实际可用的几 TOPs。差两个数量级。他一句话下了判断:

"摩尔定律基本上已经停止了,手机电池也不会有很大的进展,终端上的性能相对来说不会有太大改变。"

这是过去一年里我听到过的,对"端侧 AI 算力"特别冷静的一句话。大多数人讲摩尔定律停滞时都是作为背景铺垫,胡渊鸣是把它作为架构决策的直接输入。如果你不信摩尔定律能救你两个数量级,你就不会赌纯 pixel 世界模型能跑在消费电子上。 他不信,所以他赌 Hybrid。

这里需要补充的是:胡渊鸣的算力账隐含了一个前提——世界模型的瓶颈在消费终端(手机、PC)。这在游戏场景成立。但他自己也提到世界模型另一大场景是 robotics / 具身智能,那条线上机器人本体可以背更大的算力,iPhone 几 TOPs 不是它的约束。所以更精确的说法是:纯 pixel 世界模型在消费游戏里是结构性死局;在 robotics 里,结论要另算。 节目没强调这个区别,但读者值得记得。

Vibe coding 已经跑通的那条路

这期节目第二硬的论点,是胡渊鸣用 vibe coding 做类比证明 Hybrid 思路。

他的观察极简单:大家现在在做所谓的 vibe coding、vibe engineering,本质上是让大语言模型先写一套代码,再执行这个代码去解决问题,而不是让大语言模型直接解决所有问题。 然后他顺手下了一个判断——"这也是一个 hybrid model,对吧?"

这一句我认为是全期节目信息密度最高的一处。因为过去两年 coding 这条线已经用脚投票选边站了:

  • Cursor / Claude Code / Codex 崛起——它们全都是"生成代码 → 执行代码"的两段式。
  • 真正不生成代码、让模型 token 级别直接产出执行结果的路线(end-to-end neural),没拿到市场份额。
  • 原因不是技术上做不到,是算力账不合算。让 transformer 亲自 token by token 执行排序算法,和让它写一行 sorted() 再交给 CPython 执行,前者耗的 FLOP 是后者的几千倍。

这条路径被胡渊鸣归纳成一句话:

"它永远是用 AI 去生成一套机制,生成一套中间表示,再用最廉价的方式去执行这套中间表示,然后去解决问题。"

他接着把结论推到世界模型身上:"其实游戏是最复杂的软件形态。" 软件已经 hybrid 化了,游戏——作为一种更复杂的软件——没理由例外。Hybrid 不是权宜之计或者妥协方案,是已经在另一个领域被验证出来的工程正解。

这是整期节目很容易被低估的一个类比。 它的杀伤力在于:凡是你同意"vibe coding 是对的",你也就很难反驳"Hybrid World Model 也是对的"——除非你能指出游戏和软件本质上有什么不同,让前者必须靠纯神经网络实现。代码是符号系统、视频是连续信号,这个差异真实存在;但它能不能撑住"纯神经网络架构"在游戏侧反超 hybrid,我目前还没看到令人信服的论证。

"AI 原生"的两条硬边界

Hybrid 是架构层面的判断。胡渊鸣在产品层面也画了两条更具体的线——他叫做 "AI 原生游戏" 的两个必要条件:

  • 条件一:离开 AI 不能玩。 AI 在这个游戏里不是换皮,不是让画面更炫,而是核心机制必须有 AI 参与。"如果把 NPC 对话换成 AI 的就算 AI 原生游戏,那这个定义太便宜了。"
  • 条件二:AI 的加入真的让游戏变好玩。 不是"拿着锤子找钉子"——手里有 AI 就硬塞进去。

两条同时满足,才算。

他们做的《黑箱》符合这两条:武器技能完全靠 AI 合成,每次给你的结果都不一样(意料之外),但又可以被玩家引导(情理之中)。去掉 AI 这游戏就无聊到玩不下去,有了 AI 它就成了一台惊喜发生器。

然后是第三个要素——AI 降低了门槛。"大语言模型用自然语言语料训练,新手老手都能用自己的直觉驱动它。"

这里他顺手打了一枪:"游戏里生成一万个六十分的游戏没有任何意义,因为大家永远会去玩那个九十分的游戏。"这句话我建议所有做"AI 批量生成内容"的创业者钉在墙上。九十九个草稿不如一个作品。

这条产品判断和上面的技术架构是同一个底层逻辑的两个侧面:AI 的价值在于它能产生人力难以复制的变化(生成),而不是在于它能接管整个系统(执行)。 凡是想把 AI 放到执行位上的产品——无论是纯 pixel 世界模型还是"一键生成一千款小游戏"——都会撞上同一堵墙。

三次转型:从"我能做什么"到"用户要什么"

讲到这里必须把他人物线补上,否则前面的判断就只是纸上谈兵。

Meshy 不是胡渊鸣一开始就做的事。他在 MIT 博士期间做计算机图形学 + 物理仿真 + GPU 编译器,出来创业做的第一个产品是太极图形——一个高性能图形学计算框架。然后是一个渲染器软件。两个产品他后来都砍了。

节目里有一段他自述至暗时刻,大概是创业 18 个月前后:两个产品都没做起来,叠加家里老人去世,他一度想把钱还给投资人。

转机来自两件事。一件是某个用户告诉他:"你这个渲染器软件我们不会付钱,但你软件里那些 3D 资产,我愿意付五块钱一个。" 这句话被胡渊鸣反复回味——用户愿意为什么付钱,是个比"我能造什么"更精准的问题。然后是 ChatGPT 和 Stable Diffusion 出来。他把前面积累的 3D 工程能力反过来用,做了第一个公开可用的文字生成 3D 模型产品——Meshy。

另一件是投资人那句话。他不敢和红杉说"我又要转型了",拖着不沟通,最后还是打了电话。电话那头只问了一句:"你这个业务现在到底是怎么回事?" 他如实说。对方说:"好啊,你试一试,我支持你。"

这个细节在节目里他讲得很克制,但我认为这是整期节目里分量很重的一句非技术内容。它解释了很多 founder 说不出口的东西:不是钱救了你,是"还可以再试一次"这句话救了你。 而说这句话的能力,是投资机构能给 founder 的一种极稀缺的东西——不是 term sheet,是那通电话。

这段经历和前面的 Hybrid 论点有隐秘的呼应:胡渊鸣现在对"纯 pixel 世界模型"的冷静判断,底层是他对"技术能力与商业落地之间距离"的血泪认知。 太极是顶尖的技术,但它没找到付钱的人。渲染器是不错的工具,但用户只想要里面的资产。这两次转型给他装了一个 PMF 探测器——用户要的是结果,不是你造结果的技术路径。 Hybrid 之所以是他的答案,不是因为它"技术上更优雅",而是因为它"能跑在用户手里"。

笔者个人观察:Hybrid 范式的跨领域迁移

这期节目抽象的地方不少,算力、架构、PMF,讨论都在云端。我补两个身边正在发生的观察,帮助判断 Hybrid 是不是真的跑得通。

一个是 Claude Code 这类 AI IDE 的迭代路径。 过去半年,Anthropic 和 Cursor 都在往"agent 写代码 + shell 执行 + 读 diff 再调整"的模式推进——本质上就是胡渊鸣说的"AI 生成中间表示、最廉价的方式执行"。反过来看,那些试图让模型直接输出可用二进制或直接模拟终端环境的尝试,至今没有真正拿到市场份额。两条路 2025 年都有资本下注,一年下来胜负已分——Hybrid 赢了。

另一个是 Unity 的困境和 Epic 的 pivot。 传统游戏引擎公司现在都面临同一个问题:他们的核心代码库是十年前写的 Hybrid 基建(渲染 + 物理 + 动画的经典实现),但管线的生成端还没被 AI 接管。谁能先把"AI 生成 + 经典引擎执行"这个裂缝补上——即胡渊鸣这种路径——谁就拿到下一代游戏引擎的叙事。Meshy 现在是在 3D 资产生成这一段撬开缺口,下一步往游戏主机制迁移,方向对了。

两条线叠起来看,Hybrid 不是 Meshy 的产品决策,是一个在软件领域已经赢过一次、正在游戏领域被接着验证的架构范式。胡渊鸣对世界模型的判断,普适性比他在节目里讲得还要大。

Founder 的三段迭代:胡渊鸣没讲清但值得拎出来的部分

节目的后半段从技术转到人。胡渊鸣自述作为 CEO 的三个版本:

  • V1:过度在意员工感受,每天 question 大家开不开心,结果公司变得像慈善机构,缺使命感。
  • V2:矫枉过正,为完成目标不吃不睡摧残自己,员工看了也垂头丧气。
  • V3(现在):先照顾好自己,再给团队输血。"一个 founder 永远是先爱自己,多余的爱才能给团队。"

这段自白的价值在于,它反驳了硅谷那套"founder 必须 24/7 all-in"的狼性叙事,同时也没滑到另一个极端(佛系管理)。他的第三阶段说白了是一种工程化的自我管理:你是公司的 bottleneck,你挂了整条 pipeline 就停了,所以你的状态本身就是公司的产品。

但节目里有一个他没讲透的地方——V3 要成立,前提是公司已经过了生死线。 在没有 PMF 的 V1 V2 阶段,founder 需要一定程度的自我摧残来挤出信号;胡渊鸣自己坦承过,18 个月的至暗时刻里他不"松弛"。所以这三段迭代不是优越感递增,是业务阶段匹配不同 founder 模式:早期靠狠,中期靠规,成熟期靠松。这个差别节目里一笔带过,但读者值得注意。

吴茗提炼的那条主线:Motivation > Talent

这期节目我还想单独拎出主播的一个判断。吴茗在节目后段说了一件颠覆性的话:"一路非常优秀、有很多光环的天才好学生,是要非常小心的。"

她的逻辑是:长期在一个维度上被正反馈强化的人,进入创业以后很难适应负反馈。 一旦事情不顺,他们会把问题归因给"身边的人"、"环境"、"世界",而不是"我"。胡渊鸣是她见过的例外——"哪怕情况不那么顺,你跟我讲你的问题在哪,从来没跟我说我们非常好非常好。"

吴茗下了一个看 founder 的锚定:motivation 比 talent 重要得多。 具体是:"这件事情有人做成了但不是我,我会遗憾"——有这股心气的 founder,九死一生里能扛过去;没有的,履历再漂亮也会在负反馈里碎掉。

这个判断和胡渊鸣的技术架构判断,最终指向同一件事:无论是做 AI,还是做 founder,都有一层"不可被算力或光环替代的东西"。 模型里,那层东西叫"经典执行器"——硬件的物理规律、牛顿力学、CPU 指令集。人身上,那层东西叫 motivation——为什么你非要做这个,非要做到底。

两者都是那个系统里"不会被 scale 掉"的基础层。AI 不会取代那层,融资也不会。

声入商业说

这一期的价值,不在于它介绍了 Meshy 或者 AI 原生游戏,而在于胡渊鸣把"世界模型"这个过热的词做了一次彻底的术语脱敏。用一道算力算术、一个 vibe coding 类比、一个 Meshy 的 ARR 曲线,他把这个词从 marketing slides 拽回到工程决策桌上。

在我们之前拆过的 《谢赛宁七小时访谈:放开维特根斯坦》 里,我们讨论过"LLM 不是通用智能的地基,只是一根拐杖"。谢赛宁把 LLM 推下了地基的位置,但没有完全回答什么来替代地基。胡渊鸣这一期是对那个问题的一个工程回答:地基还是那套老的经典图形学 + 物理引擎 + 算术运算,AI 叠在它上面做生成,不叠下去做替代。 拐杖换了一根更好的,但要走路还得靠腿——这两期合起来看,画面是完整的。

所以我们不搬运 90 分钟对谈,我们帮你判断:过去一年里所有跟你讲"世界模型"的公司,你只需要问一个问题——你这个东西,是 AI 生成后面还需要一套经典执行器,还是你想让 AI 自己顶到底? 前者在工程上已被验证可行,后者在消费终端上还需要算力进化一个以上数量级。胡渊鸣的答案已经写在 Meshy 的 ARR 上。

评论区留给你:你用过哪些号称"AI 原生"的产品?按胡渊鸣的两条件(离开 AI 不能用 / AI 真的让它更好)筛一遍,还剩下几个?

点击"阅读原文"可以收听完整 90 分钟对谈。 也推荐去小宇宙搜索"the prompt"订阅这档播客——红杉中国做的,嘉宾多是 AI 产业一线的 founder 和研究者,是我们日常选题的常规索引来源之一。