正文

业内首创，豆包VideoWorld开源，仅通过纯视觉信息认知世界|界面新闻 · 科技

admin V管理员 /前天/2阅读/0评论

0210

文章最后更新时间2025年02月10日，若文章内容或图片失效，请留言反馈！

2月10日，界面新闻获悉，豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。

不同于主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。这一创新，也是在人工智能视频生成和多模态认知方面取得的重要突破。

传统的多模态模型，如Sora、DALL-E和Midjourney等，大多依赖于语言或标签数据来学习知识，而VideoWorld则通过纯视觉信号进行学习和推理。这一特性使得VideoWorld在处理如折纸、打领结等难以通过语言清晰表达的任务时，具有显著优势。

大模型的视觉理解能力一直是AI前沿研究方向之一。视频中存在大量冗余信息，会影响模型的学习效率，使得视频序列的知识挖掘效率显著落后于文本形式。但李飞飞教授曾在TED演讲中提到，“幼儿可以不依靠语言理解真实世界 ” 。与语言相比，“用眼睛看”是人类门槛更低的认知方式。

据介绍，VideoWorld的核心技术基于一种潜在动态模型（LDM），该模型能够高效压缩视频帧间的变化信息，显著提升知识学习的效率和效果。

推荐阅读：

直通部委 | “两高”发布办理袭警案件司法解释 11省份81个统筹区开通医保钱包|界面新闻 · 中国

此外，VideoWorld还结合了自回归Transformer架构和矢量量化-变分自编码器（VQ-VAE），实现了高质量的视频生成和复杂的任务推理。通过这一组合，VideoWorld能够从未标注的视频数据中学习复杂的任务知识，包括规则、推理和规划能力。

在实际应用中，在不依赖任何强化学习搜索或奖励函数机制前提下，VideoWorld 达到了专业 5 段 9x9 围棋水平，能够选择最佳落子位置并击败高水平的对手。

此外，该模型还具有扩展到自动驾驶、智能监控等领域的潜力。

VideoWorld的开源项目代码和模型已公开发布，豆包大模型团队也提供了详细的安装和运行指南。

2月10日，受此消息影响，A股视觉认知概念股午后大幅走强，创业板星宸科技直线拉升涨停，全志科技、富瀚微、虹软科技等纷纷大幅冲高。

你可能想看：

对话中国新就业形态研究中心主任：确保平台与骑手的信息通畅，有助于推进算法治理|界面新闻 · 科技

工信部：三家电信运营商企业已全面接入DeepSeek开源大模型|界面新闻 · 科技

工行光山支行：网传信息不实，“80万存款”系客户通过手机银行自行转账至第三方公司|界面新闻 · 快讯

豆包大模型团队开源视频生成模型VideoWorld|界面新闻 · 快讯

视觉中国：完成DeepSeek开源大模型接入与本地化部署|界面新闻 · 快讯

科技早报｜微信测试“送礼物”功能带动相关概念股大涨；我国提前完成“十四五”5G建设发展目标|界面新闻 · 科技

墨西哥最新关税政策或波及Temu及Shein|界面新闻 · 科技

财说|“科技春晚”CES召开在即，AI眼镜或占C位，A股中这些企业存在高关联度|界面新闻 · 证券

微信“蓝包”交春节成绩单，书籍成送礼首选|界面新闻 · 科技

因造谣东方甄选贵州直播收宣传费，抖音用户被判赔偿3.6万元|界面新闻 · 科技

-- 展开阅读全文 --

相关阅读

发表评论取消回复

评论列表（暂无评论，2人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码