综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月14日,谷歌发布Veo 3.1视频AI模型,强化场景一致性并优化移动端适配。新模型提升“图像要素”生成能力,增强故事表达和场景切换中角色、叙事的连贯性,支持背景、纹理等素材跨场景复用,自然融合无关素材以生成更震撼的效果。同时,Veo 3.1新增9:16纵向比例,专为手机竖屏设计,满足短视频平台需求,并提供超分辨率功能,支持输出1080p至4K高质量视频内容。
原文链接
12月25日,阿里通义千问宣布开源图像编辑AI模型Qwen-Image-Edit-2511。该版本在角色一致性、工业设计能力及几何推理能力等方面进行了显著提升,尤其在多人合照生成中表现优异,可实现两张人物照片的高质量合照效果。此外,新模型集成了Lora能力,支持打光、多场景应用等特效,并可直接生成辅助线效果,适用于工业产品设计与材质替换等工程场景。Qwen-Image-Edit-2511已在ModelScope和Hugging Face平台开源,为开发者提供强大工具。
原文链接
12月17日,腾讯正式发布混元世界模型1.5(Tencent HY WorldPlay),首次开源业界最系统、最全面的实时世界模型框架。该模型支持实时交互生成、长范围3D一致性及多样化交互体验,可实现24帧/秒高清视频生成,并具备空间记忆能力,能构建高质量3D空间模拟器。技术上,模型依托双分支动作表征、上下文记忆重构机制等三大创新,破解了实时性与几何一致性的难题。此次开源涵盖数据、训练、推理部署全链路,为AI游戏开发、影视制作、虚拟现实及具身智能研究提供全新工具。在线体验及代码已上线。
原文链接
标题:北京人形WoW具身世界模型引领机器人新突破
近年来,机器人在运动能力上快速进步,如后空翻、跑酷等复杂动作已不在话下。然而,让机器人理解物理现象,比如水杯倒下后水为何洒出,依然是巨大挑战。近日,北京人形机器人创新中心开源了全新世界模型架构——WoW(World-Omniscient Worl...
原文链接
2025年10月17日,工信部装备工业一司副司长郭守刚在世界智能网联汽车大会上表示,未来将完善政策法规,制定十五五智能网联新能源汽车产业规划。工信部将强化对搭载组合驾驶辅助系统车辆的生产一致性监管,规范企业OTA升级活动,推动机动车生产准入管理条例出台,并完善企业退出机制。同时,协同相关部门推进准入管理、交通管理、网络安全等领域的法律法规制修订,压实企业主体责任,确保产业健康发展。(财联社记者 徐昊)
原文链接
正文:9月29日,阿里通义千问发布Qwen-Image-Edit-2509模型更新,现于HuggingFace和魔搭社区开源,并可通过Qwen Chat免费体验。新版支持多图编辑(如“人物+人物”“人物+商品”“人物+场景”等),显著提升单图一致性(包括人脸、商品、文字编辑)。此外,新增原生支持ControlNet功能,可基于深度图、边缘图等进行操作。此次更新强化了多场景适配能力,适用于海报设计、老照片修复、表情包制作等任务。
原文链接
9月22日晚间,DeepSeek宣布其线上模型升级至V3.1-Terminus版本,包含思考模式和非思考模式,上下文长度均为128k。此次更新改进了语言一致性和Agent能力,缓解中英文混杂及异常字符问题,并优化Code Agent与Search Agent表现。非思考模式输出默认4K(最大8K),思考模式默认32K(最大64K)。使用价格为百万tokens输入缓存命中0.5元、未命中4元,输出12元。用户可在线体验新版功能。
原文链接
9月15日,河南省发布《河南省加快人工智能赋能新型工业化行动方案(2025—2027年)》,提出在现代医药产业领域加强人工智能应用。重点包括利用大模型优化药物筛选、临床试验设计及合成工艺,提升药品研发效率与质量。同时,打通生物与医疗健康数据壁垒,强化中医药大模型构建,攻克中药产品一致性难题。此外,推动人工智能在辅助诊断、脑机混合、智能康复等领域的应用,提高医疗器械性能。方案展现了河南以AI赋能医药工业的规划与决心。
原文链接
2025年8月,杭州群核科技发布空间大模型,攻克了空间一致性难题,突破虚拟与现实技术壁垒。其模型SpatialLM1.5和SpatialGen具备真实感全息漫游、可交互性及复杂空间处理能力,解决了3D场景生成中视角扭曲、内容穿帮等问题。相比GPT-5在空间任务中的局限,群核模型能精准生成适合特定需求的空间布局,如适老家具摆放,并支持机器人路径规划等复杂任务。群核提出“三位一体”战略,结合空间编辑工具、合成数据和大模型,形成正向循环闭环,推动空间智能发展。此次开源旨在吸引开发者参与,加速行业生态构建。作为“杭州六小龙”之一,群核专注室内场景,开辟原生空间智能新路径,致力于成为全球空间智能基础设施。
原文链接
8月中旬,一款名为nano-banana的匿名模型在LMArena平台盲测中因惊人效果引发关注,用户争相测试。北京时间8月27日,谷歌认领该模型,正式发布为Gemini 2.5 Flash Image,可在Gemini app等平台使用。其核心技术亮点包括颠覆性一致性、自然语言驱动编辑和闪电速度响应。实测显示,模型在多图融合和一致性上表现优异,但部分任务如商品尺寸调整翻车。此次发布采用匿名盲测到官方认领策略,借助社区传播形成病毒式扩散,被称为“一致性之王”。这一模式为AI模型发布提供了新思路。
原文链接
加载更多
暂无内容