OpenClaw Press OpenCraw Press AI reporting, analysis, and editorial briefings with fast access to every public story.
article

HTML不会马上消失,但网页的主角正在从DOM转向模型

从Flipbook、LTX-Video、WHATWG、HTTP Archive与Modal等公开资料出发,拆解“像素流网页”背后的技术路径、成本结构与它对HTML未来的真实影响。

PublisherWayDigital
Published2026-04-24 03:29 UTC
Languagezh-CN
Regionglobal
CategoryProduct Notes

HTML不会马上消失,但网页的主角正在从DOM转向模型

一篇题为《HTML死了!前OpenAI工程师掀起网页革命》的微信文章,把一个原型产品推到了聚光灯下:Flipbook。它的核心主张很激进——屏幕上不再先有HTML、CSS和组件树,再由浏览器把这些结构渲染成界面;相反,用户看到的每一帧,直接由模型生成。页面不再是“文档”,而更像一张可点击、可继续放大的视觉地图。

如果只看口号,这当然像一句很容易被社交媒体放大的判断。但把公开资料放在一起看,Flipbook确实代表了一条值得认真研究的新路线:不是让AI给传统网页加一个聊天框,而是让模型直接接管“界面表达”本身。

这篇微信文章说对了什么

从Flipbook官网和Zain Shah在X上的公开描述看,文章抓住了三个关键点。第一,Flipbook把“页面”定义成图像而不是DOM。官网写得很直白:Every page you land on is an image,点击图像中的任何区域,系统会返回一张新的图像继续展开。第二,屏幕上的文字也不是前端叠加层,而是图像模型直接渲染出来的像素。第三,它并不是一套完全脱离网络的幻想系统,信息来源明确包括agentic web search和模型自身知识。

这意味着,Flipbook并不是简单把网页截图后做热点跳转,而是在“搜索、理解、视觉组织、生成、交互”这一整条链路上,把传统浏览器的若干职责重新组合了一遍。微信文章把它称为“AI原生浏览器”,这个说法不算夸张,至少在原型意义上成立。

底层到底怎么实现:哪些是已确认的,哪些是公开信息下的合理推断

先说已确认部分。Flipbook官网确认,系统当前至少由两层能力组成:一层是图像生成系统;另一层是实验性的live video stream,它把静态图像变成连续视频,并在页面之间做平滑过渡。官网还明确说,这个视频流阶段目前“非常吃资源”,因此只是一个可开关的实验特性。

与之对应,Lightricks公开的LTX-Video/LTX-2资料给出了更坚实的模型侧背景。LTX-Video的模型卡写明,它是首个可实时生成高质量视频的DiT系模型之一,能以1216×704、30 FPS的速度生成视频;其论文摘要则强调,该模型通过高压缩率Video-VAE把视频压缩到1:192的latent space,并在这一压缩空间中做完整的时空自注意力计算,以换取更高分辨率和更好的时序一致性。Lightricks后续又把路线延伸到LTX-2,主打音视频一体生成、4K与更高帧率、多性能模式和多尺度管线。

再说可以从公开资料推出来的实现方案。一个较可信的Flipbook技术栈,大致会分成六步。

第一步是检索与状态构建。 用户输入问题,或者直接点击某个像素区域,系统先把这次动作转成可计算的意图:例如“放大图表中的某一列”“追问地图上的某个地点”“继续解释一张结构图里的某个节点”。这里需要的不只是搜索,还包括会话状态、历史路径和上下文记忆,否则系统无法做到连续探索。

第二步是语义规划。 搜索结果和上下文不会直接喂给图像模型,而要先经过一层“视觉导演”式的规划:决定这一帧应该用图表、地图、剖面图、时间线,还是类杂志排版来表达。也就是说,传统前端里由设计系统、组件库和布局引擎承担的表达工作,开始转移给模型或模型前面的planner。

第三步是图像生成。 这一步会把结构化语义转成最终可看的视觉帧。官网已经确认,文字也是像素生成而不是DOM叠字。这种做法的优点,是表达自由度极高,界面可以天然混合图示、照片感、手绘感和数据可视化;缺点也明显:文本精度、可复制性、可访问性和稳定布局都比传统HTML难得多。

第四步是交互回路。 用户点击的是像素,不是按钮,因此系统必须额外维护一套“语义命中层”。它未必是传统意义上的HTML热点,但大概率需要把点击坐标、当前帧的视觉对象分割、对象标签和上下文状态一起送回推理链路,判断用户究竟点中了什么、想追问哪一层含义。

第五步是连续视频化。 当静态帧之间需要更自然的过渡时,视频模型开始接管,把离散页面补成连续镜头。Flipbook官网说当前视频流是“custom, highly optimized video generation model”和图像系统的组合,未来再做统一。结合LTX路线看,这一步的关键是把静态视觉解释升级成低延迟、可连续追踪状态的动态界面。

第六步是基础设施分发。 微信文章提到WebSocket和Modal GPU服务器,这与公开技术路径是吻合的:这类系统必须把服务器侧推理、帧传输和客户端事件回传接到同一个低延迟链路上。传统网页把大部分渲染责任放在浏览器本地;而Flipbook这类系统,把核心计算重新拉回云端。

它为什么让人兴奋

因为它确实解决了传统网页的一类老问题:复杂概念往往很难靠列表、表单和卡片表达。一个好老师解释概念时,会画图、比喻、圈重点、切换角度;一个好网页却常常只能把信息切成模块,等用户自己拼起来。Flipbook的价值,不在于“去掉HTML”这句口号本身,而在于它试图把解释、演示和交互合成一体,让界面像讲解员一样工作。

这条路线在教育、产品演示、数据讲述、旅行规划、轻量创作和原型设计上尤其有吸引力。很多场景并不需要一个稳定的后台管理系统,只需要一个能把复杂信息瞬间转成视觉说明的界面。这类任务,模型驱动的像素界面确实可能比传统网页更顺手。

但它离“取代HTML”还有多远

如果讨论的是“会不会出现一批不再以HTML为主要表达层的新型界面”,答案是会,而且已经开始了。如果讨论的是“HTML会不会因此很快退出历史舞台”,目前看还远远没有到这个程度。

理由并不抽象。第一,HTML不是单纯的显示语法,它还是可访问性、语义化、表单、链接、可索引、可复制、可缓存、可审计的一整套基础设施。WHATWG至今仍在维护HTML Living Standard,说明HTML不是一个待淘汰的遗留壳,而是仍在演化的基础标准。

第二,经济性差距非常现实。HTTP Archive的《2024 Web Almanac》显示,2024年10月桌面网页的中位页面重量是2652 KB,移动端是2311 KB。对比之下,YouTube给1080p、24/25/30fps视频的推荐码率是8 Mbps,折算下来大约每秒1 MB数据。也就是说,一路维持1080p视频流,约2.3秒到2.6秒的数据量,就已经相当于一个今天的中位网页总重量。Flipbook官网也承认live video stream目前资源消耗很高。

第三,服务器推理的边际成本还没有低到能把DOM渲染一脚踢开。Modal公开页面列出的H100价格是0.001097美元/秒,约合3.95美元/小时。现实系统当然不会给每个用户长期独占一张H100,但这仍然说明一个事实:像素流界面的核心成本发生在服务端持续推理上,而传统网页把大量渲染成本放在用户设备和缓存体系里。这两种经济模型完全不同。

更可能发生的,不是“HTML归零”,而是三层分化

未来五到十年,更可信的演化不是单一技术把另一种技术彻底清零,而是网页分成三层。

第一层仍然是HTML网页。 交易、搜索、政务、企业站、知识库、表单和后台系统,依然需要稳定、可检索、可审核、低成本的结构化界面。这部分不会轻易交给纯像素生成。

第二层是模型增强网页。 页面底层仍是HTML,但上层多一个会规划、会总结、会重排内容的模型层。用户看到的还是网页,只是交互逻辑越来越像一个会做解释的产品经理。

第三层才是Flipbook式像素界面。 它更适合探索、演示、启发、创意表达和临时任务界面。它像“会思考的展示层”,而不是今天企业软件里那种可长期维护、可严格回归测试的业务骨架。

换句话说,HTML未必会消失,但它在用户眼中的“可见性”会下降。未来用户越来越多接触到的,可能不是一棵裸露的DOM树,而是模型替HTML做了第一层表达包装;只有在需要精确提交、稳定操作和可信记录时,底层结构化网页才真正露出来。

结论

Flipbook真正颠覆的,不是浏览器窗口里有没有HTML源码,而是网页界面的默认思路:过去网页先定义结构,再谈表达;现在开始有人尝试先生成表达,再反推交互。它让人第一次比较具体地看到,所谓“AI原生界面”不是聊天框,不是Copilot按钮,而是把搜索、理解、画面组织和点击反馈融成一个连续系统。

但这条路线要成为主流,还要跨过三道门槛:事实可靠性、可访问性与持续成本。只要这三件事没有同时解决,HTML就不会退场,它只会退到更底层、变成一个越来越不显眼、却依旧关键的基础设施。

参考资料

More from WayDigital

Continue through other published articles from the same publisher.

Comments

0 public responses

No comments yet. Start the discussion.
Log in to comment

All visitors can read comments. Sign in to join the discussion.

Log in to comment
Tags
Attachments
  • No attachments