article

HTML不会马上消失，但网页的主角正在从DOM转向模型

从Flipbook、LTX-Video、WHATWG、HTTP Archive与Modal等公开资料出发，拆解“像素流网页”背后的技术路径、成本结构与它对HTML未来的真实影响。

Published2026-04-24 03:29 UTC

Languagezh-CN

Regionglobal

HTML不会马上消失，但网页的主角正在从DOM转向模型

一篇题为《HTML死了！前OpenAI工程师掀起网页革命》的微信文章，把一个原型产品推到了聚光灯下：Flipbook。它的核心主张很激进——屏幕上不再先有HTML、CSS和组件树，再由浏览器把这些结构渲染成界面；相反，用户看到的每一帧，直接由模型生成。页面不再是“文档”，而更像一张可点击、可继续放大的视觉地图。

如果只看口号，这当然像一句很容易被社交媒体放大的判断。但把公开资料放在一起看，Flipbook确实代表了一条值得认真研究的新路线：不是让AI给传统网页加一个聊天框，而是让模型直接接管“界面表达”本身。

这篇微信文章说对了什么

从Flipbook官网和Zain Shah在X上的公开描述看，文章抓住了三个关键点。第一，Flipbook把“页面”定义成图像而不是DOM。官网写得很直白：Every page you land on is an image，点击图像中的任何区域，系统会返回一张新的图像继续展开。第二，屏幕上的文字也不是前端叠加层，而是图像模型直接渲染出来的像素。第三，它并不是一套完全脱离网络的幻想系统，信息来源明确包括agentic web search和模型自身知识。

这意味着，Flipbook并不是简单把网页截图后做热点跳转，而是在“搜索、理解、视觉组织、生成、交互”这一整条链路上，把传统浏览器的若干职责重新组合了一遍。微信文章把它称为“AI原生浏览器”，这个说法不算夸张，至少在原型意义上成立。

底层到底怎么实现：哪些是已确认的，哪些是公开信息下的合理推断

先说已确认部分。Flipbook官网确认，系统当前至少由两层能力组成：一层是图像生成系统；另一层是实验性的live video stream，它把静态图像变成连续视频，并在页面之间做平滑过渡。官网还明确说，这个视频流阶段目前“非常吃资源”，因此只是一个可开关的实验特性。

与之对应，Lightricks公开的LTX-Video/LTX-2资料给出了更坚实的模型侧背景。LTX-Video的模型卡写明，它是首个可实时生成高质量视频的DiT系模型之一，能以1216×704、30 FPS的速度生成视频；其论文摘要则强调，该模型通过高压缩率Video-VAE把视频压缩到1:192的latent space，并在这一压缩空间中做完整的时空自注意力计算，以换取更高分辨率和更好的时序一致性。Lightricks后续又把路线延伸到LTX-2，主打音视频一体生成、4K与更高帧率、多性能模式和多尺度管线。

再说可以从公开资料推出来的实现方案。一个较可信的Flipbook技术栈，大致会分成六步。

第一步是检索与状态构建。 用户输入问题，或者直接点击某个像素区域，系统先把这次动作转成可计算的意图：例如“放大图表中的某一列”“追问地图上的某个地点”“继续解释一张结构图里的某个节点”。这里需要的不只是搜索，还包括会话状态、历史路径和上下文记忆，否则系统无法做到连续探索。

第二步是语义规划。 搜索结果和上下文不会直接喂给图像模型，而要先经过一层“视觉导演”式的规划：决定这一帧应该用图表、地图、剖面图、时间线，还是类杂志排版来表达。也就是说，传统前端里由设计系统、组件库和布局引擎承担的表达工作，开始转移给模型或模型前面的planner。

第三步是图像生成。 这一步会把结构化语义转成最终可看的视觉帧。官网已经确认，文字也是像素生成而不是DOM叠字。这种做法的优点，是表达自由度极高，界面可以天然混合图示、照片感、手绘感和数据可视化；缺点也明显：文本精度、可复制性、可访问性和稳定布局都比传统HTML难得多。

第四步是交互回路。 用户点击的是像素，不是按钮，因此系统必须额外维护一套“语义命中层”。它未必是传统意义上的HTML热点，但大概率需要把点击坐标、当前帧的视觉对象分割、对象标签和上下文状态一起送回推理链路，判断用户究竟点中了什么、想追问哪一层含义。

第五步是连续视频化。 当静态帧之间需要更自然的过渡时，视频模型开始接管，把离散页面补成连续镜头。Flipbook官网说当前视频流是“custom, highly optimized video generation model”和图像系统的组合，未来再做统一。结合LTX路线看，这一步的关键是把静态视觉解释升级成低延迟、可连续追踪状态的动态界面。

第六步是基础设施分发。 微信文章提到WebSocket和Modal GPU服务器，这与公开技术路径是吻合的：这类系统必须把服务器侧推理、帧传输和客户端事件回传接到同一个低延迟链路上。传统网页把大部分渲染责任放在浏览器本地；而Flipbook这类系统，把核心计算重新拉回云端。

它为什么让人兴奋

因为它确实解决了传统网页的一类老问题：复杂概念往往很难靠列表、表单和卡片表达。一个好老师解释概念时，会画图、比喻、圈重点、切换角度；一个好网页却常常只能把信息切成模块，等用户自己拼起来。Flipbook的价值，不在于“去掉HTML”这句口号本身，而在于它试图把解释、演示和交互合成一体，让界面像讲解员一样工作。

这条路线在教育、产品演示、数据讲述、旅行规划、轻量创作和原型设计上尤其有吸引力。很多场景并不需要一个稳定的后台管理系统，只需要一个能把复杂信息瞬间转成视觉说明的界面。这类任务，模型驱动的像素界面确实可能比传统网页更顺手。

但它离“取代HTML”还有多远

如果讨论的是“会不会出现一批不再以HTML为主要表达层的新型界面”，答案是会，而且已经开始了。如果讨论的是“HTML会不会因此很快退出历史舞台”，目前看还远远没有到这个程度。

理由并不抽象。第一，HTML不是单纯的显示语法，它还是可访问性、语义化、表单、链接、可索引、可复制、可缓存、可审计的一整套基础设施。WHATWG至今仍在维护HTML Living Standard，说明HTML不是一个待淘汰的遗留壳，而是仍在演化的基础标准。

第二，经济性差距非常现实。HTTP Archive的《2024 Web Almanac》显示，2024年10月桌面网页的中位页面重量是2652 KB，移动端是2311 KB。对比之下，YouTube给1080p、24/25/30fps视频的推荐码率是8 Mbps，折算下来大约每秒1 MB数据。也就是说，一路维持1080p视频流，约2.3秒到2.6秒的数据量，就已经相当于一个今天的中位网页总重量。Flipbook官网也承认live video stream目前资源消耗很高。

第三，服务器推理的边际成本还没有低到能把DOM渲染一脚踢开。Modal公开页面列出的H100价格是0.001097美元/秒，约合3.95美元/小时。现实系统当然不会给每个用户长期独占一张H100，但这仍然说明一个事实：像素流界面的核心成本发生在服务端持续推理上，而传统网页把大量渲染成本放在用户设备和缓存体系里。这两种经济模型完全不同。

更可能发生的，不是“HTML归零”，而是三层分化

未来五到十年，更可信的演化不是单一技术把另一种技术彻底清零，而是网页分成三层。

第一层仍然是HTML网页。 交易、搜索、政务、企业站、知识库、表单和后台系统，依然需要稳定、可检索、可审核、低成本的结构化界面。这部分不会轻易交给纯像素生成。

第二层是模型增强网页。 页面底层仍是HTML，但上层多一个会规划、会总结、会重排内容的模型层。用户看到的还是网页，只是交互逻辑越来越像一个会做解释的产品经理。

第三层才是Flipbook式像素界面。 它更适合探索、演示、启发、创意表达和临时任务界面。它像“会思考的展示层”，而不是今天企业软件里那种可长期维护、可严格回归测试的业务骨架。

换句话说，HTML未必会消失，但它在用户眼中的“可见性”会下降。未来用户越来越多接触到的，可能不是一棵裸露的DOM树，而是模型替HTML做了第一层表达包装；只有在需要精确提交、稳定操作和可信记录时，底层结构化网页才真正露出来。

结论

Flipbook真正颠覆的，不是浏览器窗口里有没有HTML源码，而是网页界面的默认思路：过去网页先定义结构，再谈表达；现在开始有人尝试先生成表达，再反推交互。它让人第一次比较具体地看到，所谓“AI原生界面”不是聊天框，不是Copilot按钮，而是把搜索、理解、画面组织和点击反馈融成一个连续系统。

但这条路线要成为主流，还要跨过三道门槛：事实可靠性、可访问性与持续成本。只要这三件事没有同时解决，HTML就不会退场，它只会退到更底层、变成一个越来越不显眼、却依旧关键的基础设施。

参考资料

原始微信文章：51CTO技术栈
Flipbook官网：flipbook.page
Zain Shah on X：Flipbook announcement thread
Lightricks LTX-Video GitHub：github.com/Lightricks/LTX-Video
LTX-Video论文：arXiv:2501.00103
LTX Documentation：docs.ltx.video
WHATWG：Maintaining and evolving HTML since 2004
HTTP Archive Web Almanac 2024：Page Weight
YouTube recommended upload encoding settings：1080p standard frame rate 8 Mbps
Modal Pricing：modal.com/pricing

HTML不会马上消失，但网页的主角正在从DOM转向模型

HTML不会马上消失，但网页的主角正在从DOM转向模型

这篇微信文章说对了什么

底层到底怎么实现：哪些是已确认的，哪些是公开信息下的合理推断

它为什么让人兴奋

但它离“取代HTML”还有多远

更可能发生的，不是“HTML归零”，而是三层分化

结论

参考资料

Comments