
多模态大模子在左证静态截图生成网页代码(Image-to-Code)方面已展现出不俗才智,这让很多东谈主对 AI 自动化前端开辟充满期待。
关联词,一个网页竟然凿价值远不啻于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,齐组成了其中枢的交互功能。这些动态、有情状的交互逻辑,恰正是传统静态评测无法涉及的盲区。
为了填补这一要津空缺,上海东谈主工智能实验室救济浙江大学等机构的联系者,提倡了IWR-Bench——一个旨在更真实地评估 LVLM 交互式网页重建才智的评测基准。

IWR-Bench 的中枢转动在于,它不再提供静态截图,而是条件模子不雅看一段记载了无缺用户操作经由的视频,并结合网页所需的一起静态资源(如图片、图标、子视频等),去和会并复现通盘页面的动态行为。任务的复杂性跨度很大,检朴单的浏览功能,到需要逆向工程游戏律例的 2048、订机票等运用。
这项任务的难度远超预期。在对 28 个主流模子的全面测试中,即即是解析最好的模子 GPT-5,其玄虚得分也仅有 36.35 分。这一遣散了了地指出了现时模子的中枢短板,IWR-Bench 不仅为领域提供了一个更具挑战性的新方针,也为往时的联系指出了一个新的方针。
中枢亮点:
首个视频输入的交互网页重建评测:从" image-to-code "迈向" video-to-code ",对网页事件驱动逻辑的生成提倡刚性条件
真实场景、无缺资源:113 个网站任务、1001 次交互算作;提供一起静态资源并匿名化定名,靠拢真实开辟
自动化 Agent-as-a-Judge:用编程代理复现算作轨迹,双重评分同期评估功能正确性(IFS)与视觉保真度(VFS)
28 个 LVLM 系统测评:最好模子总分 36.35%,IFS 仅 24.39%、VFS 为 64.25%;通用多模态模子显耀优于"视频专长"模子

△10 个代表性模子在 IWR-Bench 任务上的评测总览秘籍全面的真实全国网页任务
现存的网页代码生成基准(如 Design2Code、WebSight)主要聚焦于静态截图转代码(image2code),而 IWR-Bench 则专注于动态视频转可交互网页代码 ( video2code ) :
传统任务: 给 AI 一张网页截图 → 生成 HTML/CSS 代码
IWR 任务: 给 AI 一段用户操作视频 + 网页静态资源 → 生成包含无缺交互逻辑的代码
值得一提的是,每个任务齐提供了无缺的静态资源(图片、图标、视频等),而况通盘文献名齐经过匿名化处分(如 logo.png → asset_001.png),迫使模子必须依靠视觉匹配而非语义推理。静态资源的引入,也为凯旋基于渲染遣散而非 HTML 代码进行评测提供了要津匡助。
下图为 IWR-Bench 任务和评测总览,模子输入包括 ( a ) 用户交互视频, ( b ) 爬取的静态资源的缩略图与文献旅途,条件模子输出 html 代码。评测时,通过 agent 在浏览器上基于 ( c ) 标注的操作轨迹进行操作,以齐全基于查验点的自动化评分。

IWR 任务对模子的三大中枢挑战包括:
多模态和会:从视频帧精确捕捉布局、文本与组件情状
多模态推理:在技能序列中推息交互逻辑与因果相关,并将视频元素与静态资源可靠匹配与绑定
高档代码生成:将推断出的情状机与事件逻辑齐全为可开动的前端代码

IWR 任务的范围和秘籍范围如下:
113 个来自真实网站的任务,分别率秘籍桌面与迁徙端(19 种,迁徙占 10.62%)
共 1001 个交互算作,平均每任务 8.9 步;其中 620 个视觉查验点、403 个逻辑断言
复杂任务包含 2048、扫雷等无缺游戏逻辑与 GUI 重建
评测框架和目的
IWR-Bench 摄取了一套严格的自动化评测契约,通过编程代理(基于 browser-use 库)来模拟真实用户的网页操作。
评测经由
操作推论:代理按照预界说的算作序列操作生成的网页
功能考据:查验每个操作是否能正确推论,以及逻辑断言是否知足
视觉对比:在要津查验点截图,与参考页面进行多维度对比
双重评分体系
交互功能分数(IFS):估量功能正确性
揣摸见效完成的操作占总操作数的比例 , 操作失败包括浏览器推论失败、逻辑断言失败
SOTA 模子 GPT-5 的 IFS 仅为 24.39%
视觉保真度分数(VFS):估量视觉复原度 - 结合初级特征(OCR 文本不异度、DINO 结构不异度)
交融高档评估(由 Gemini-2.5-Pro 进行举座评判)
SOTA 模子 GPT-5 的 VFS 为 64.25%
评测遣散

△IWR-Bench 在 28 个模子上的评测遣散
联系东谈主员从中取得了三个要津发现。
领先,功能齐全是最大瓶颈。
通盘模子的 VFS 齐显耀高于 IFS,这揭示了一个中枢问题:
模子大约较好地复现静态视觉遵守,但在生成事件驱动逻辑方面严重不及。
举例,GPT-5 大约达到 64.25% 的视觉保真度,但功能正确性仅为 24.39% ——这意味着即使页面"看起来对",试验操作时有 75% 以上的功能无法浅近责任。
其次,thinking 版块带来部分擢升。
" thinking "版块模子多数解析更好:
Claude-Sonnet-4 ( thinking ) vs. 泛泛版:34.62 vs. 34.00
Claude-Opus-4 ( thinking ) vs. 泛泛版:34.13 vs. 33.33
Gemini-2.5-Pro ( thinking ) vs. 泛泛版:30.36 vs. 30.31
但擢升幅度有限,阐明基础模子才智已经决定性成分。
另外,当今的私有视频和会模子遵守不如通用多模态模子。
成心针对视频和会覆按的模子(如 VideoLLaMA3、InternVideo)解析垫底,而通用的多模态大模子解析更优。这标明,该任务与传统的视频理罢黜务具有显耀的相反性。
IWR-Bench 的推出,标记着 AI 从"看懂静态网页"到"和会动态交互"的要津一步。36 分的收获告诉咱们:这条路还很长。这不仅是对 AI 多模态才智的一次全面体检,更是为多模态才智露馅指明了下一阶段的攻坚方针。
IWR-Bench 由上海东谈主工智能实验室救济浙大、2077AI、港汉文、斯坦福等单元共同完成,第一作家陈杨是浙江大学硕士生,通信作家为上海东谈主工智能实验室沈宇帆、石博天。
论文联结:
https://arxiv.org/abs/2509.24709
代码地址:
https://github.com/L-O-I/IWR-Bench
数据地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
技俩主页:
https://l-o-i.github.io/IWR-Bench/
一键三连「点赞」「转发」「留心心」
接待在探究区留住你的思法!
— 完 —

� � 点亮星标 � �
科技前沿进展逐日见开yun体育网