1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
百度蒸汽机升级AI长视频实时交互 支持随时中断改写剧情、扩写转场
10月15日,百度搜索宣布全面升级文心助手AIGC创作能力,新增AI图片、视频、音乐等8种模态创作功能,用户日均生成内容破千万。同日,视频生成模型“百度蒸汽机”实现行业首个AI长视频实时交互生成,突破传统10秒时长限制,支持随时中断改写剧情和扩写转场。此外,百度推出开放式实时互动数字人智能体,具备高逼真度和情感识别能力,适用于法律、教育等场景。据Omdia和QuestMobile报告,百度搜索在AI用户规模、技术能力等多项指标中位列行业第一,月活跃用户达3.65亿。
元界筑梦师
10-15 18:39:49
AI长视频
文心助手
百度搜索
分享至
打开微信扫一扫
内容投诉
生成图片
行业首次 百度蒸汽机实现AI长视频实时交互
10月15日,百度宣布其视频生成模型“百度蒸汽机”(文心专精)完成重大升级。此次升级突破了传统AI视频生成时长限制,行业首次实现AI长视频实时交互生成,生成速度超越国内主流模型。用户只需上传单张图片与提示词即可启动视频生成,并实时预览全部推理内容。在生成过程中,用户可随时暂停或修改提示词,动态调整视频剧情、画面及转场效果,实现全程干预。这一创新技术为视频创作提供了更高自由度和效率,展现了AI在长视频领域的全新可能性。
蝶舞CyberSwirl
10-15 17:40:35
AI长视频
实时交互
百度蒸汽机
分享至
打开微信扫一扫
内容投诉
生成图片
动辄2小时的AI历史长视频,正在互联网疯狂掘金
2025年10月,AI生成的历史长视频在YouTube等平台迅速走红,成为新兴掘金赛道。以“Sleepless Historian”为代表的账号自4月底上线,单月涨粉超35万,订阅数突破62万,其中一条2小时视频播放量近400万。这些视频结合白噪音与历史故事,助眠效果显著,评论区反响热烈。创作流程包括AI策划选题、生成脚本及语音,制作成本低且效率高,日均可更新1-2条。尽管YouTube新规限制低质AI内容,但因这些视频兼具知识性与娱乐性,仍可获得广告分成。据估算,“Sleepless Historian”单条视频收益可达4000美元。然而,随着竞争加剧,这一冷门赛道或将快速变为红海。
量子思考者
10-13 19:01:48
AI历史长视频
YouTube合作伙伴计划
助眠视频
分享至
打开微信扫一扫
内容投诉
生成图片
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
正文:2025年10月6日,字节跳动与UCLA联合发布了一项名为Self-Forcing++的AI技术,成功突破分钟级长视频生成瓶颈,最长可生成4分15秒高质量视频,较现有5-10秒生成能力提升近50倍。该方法无需更换模型架构或重新收集数据集,通过反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存训练等创新优化,显著抑制了长视频后期画质下降问题。实验显示,Self-Forcing++在语义一致性、视觉稳定性和动态表现上全面领先CausVid、SkyReels等基准模型,且支持开源。研究人员还引入Gemini-2.5-Pro作为评估工具,进一步提升了评价准确性。这一技术或将推动AI电影时代的到来。
数据炼金师
10-06 14:37:37
Self-Forcing++
字节AI
长视频生成
分享至
打开微信扫一扫
内容投诉
生成图片
百度蒸汽机发布通用AI长视频生成功能
9月25日,百度蒸汽机发布全球首个中文音视频一体化模型的通用AI长视频生成功能。该功能突破以往AI仅能生成短视频或依赖首尾帧续写的限制,支持用户生成无限长度的AI视频,并引入“流式无限生成”技术,首次实现通用长视频的‘无限’生成能力。这一升级为行业首创,带来更灵活的视频创作体验。
超频思维站
09-25 19:12:15
AI长视频生成
流式无限生成
百度蒸汽机
分享至
打开微信扫一扫
内容投诉
生成图片
百度蒸汽机发布通用 AI 长视频生成功能,行业首次突破长度限制
9月25日,百度蒸汽机发布通用AI长视频生成功能,首次突破行业长度限制,支持生成无限长度的AI视频。此次升级通过流式生成技术,解决了以往仅能生成5秒、10秒短视频或依赖首尾帧续写的局限。此前,百度蒸汽机音视频一体化模型在上个月完成2.0版本升级,实现多人有声视频一体化生成,并具备复杂运镜、电影级细腻表演和流畅画质等特性。新功能进一步巩固了其在音视频生成领域的领先地位,为用户提供更强大、灵活的创作工具。
虚拟微光
09-25 18:07:23
AI长视频生成
百度蒸汽机
音视频一体化模型
分享至
打开微信扫一扫
内容投诉
生成图片
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
8月23日,苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计,‘慢流’捕捉高分辨率场景细节,‘快流’追踪运动变化,解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色,涵盖知识问答、数学推理及OCR等领域,并兼容公开数据集训练,已在GitHub和Hugging Face开源。
智能维度跳跃
08-23 16:02:10
SlowFast-LLaVA-1.5
苹果
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2 国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。 相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。 此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
跨界思维
06-04 14:20:36
开源模型
视频理解
长视频
分享至
打开微信扫一扫
内容投诉
生成图片
智源研究院宣布开源超长视频理解模型Video-XL-2
今日,《科创板日报》报道,智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长,可在单张显卡上高效处理长达万帧的视频输入,大幅拓展了应用场景。目前,模型权重已全面开源,面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段,为学术研究及产业应用提供强大支持。
神经网络领航员
06-03 12:58:08
Video-XL-2
智源研究院
超长视频理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98% 正文: 3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。 当前多模态大模型...
Oasis
05-04 23:17:35
Video-XL-Pro
重构式token压缩
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序