
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月3日,智源研究院发布国产开源统一图像生成模型OmniGen2,上线一周GitHub星标突破2000。新版本显著提升上下文理解、指令遵循和图像生成质量,支持文生图、图像编辑及主题驱动生成,打通多模态技术生态。OmniGen2采用分离式架构与双编码器策略,并引入‘反思机制’优化生成能力,同时发布新基准OmniContext评估模型性能,取得7.18分领先成绩。模型权重、训练代码及数据全面开源,科研体验版已开放,链接见官方发布。
原文链接
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一...
原文链接
6月17日,Adobe宣布推出独立应用“Adobe Firefly”,支持安卓和iOS平台。这款应用提供生成式填充、扩展、文本生成图像/视频等功能,可移除照片干扰元素或添加新内容,还支持将图片延展以适应不同画幅,适合社交媒体创作。生成视频时长为5秒,支持OpenAI或谷歌模型的选择。Firefly基于去年10月发布的Adobe Firefly模型,此前部分功能已集成于Photoshop等软件中。应用默认使用Adobe自研模型,新用户可免费下载,但高级功能需购买积分,价格为每月4.99美元或每年49.99美元。目前仅支持英语、法语、德语和日语。
原文链接
5月21日,OpenAI宣布扩展Responses API,新增多项功能支持开发者构建更智能的应用。新功能包括远程连接MCP服务器、图像生成(基于gpt-image-1模型)、Code Interpreter工具以及文件搜索优化。Responses API现全面支持GPT-4o系列和GPT-4.1系列模型。开发者可通过几行代码连接Cloudflare、HubSpot、Stripe等MCP服务器,快速访问数据源。图像生成工具支持实时流式预览与多轮编辑,Code Interpreter助力复杂数学与编码问题解决,文件搜索支持多向量存储与属性过滤。此外,API新增后台模式处理长时间任务,推理摘要功能用自然语言总结推理过程,加密推理项保障Zero Data Retention用户在无数据存储情况下复用推理项,降低延迟与成本。
原文链接
5月19日,微软为Copilot AI推送更新,加入对OpenAI GPT-4o图像生成技术的支持。GPT-4o具备生成吉卜力风格表情包等强大功能,此次更新使Copilot在图像生成上能力大幅提升,用户可上传自有图片并优化细节、改变风格或生成逼真照片。新功能还支持复杂指令下的文本渲染及创作编辑。此前,GPT-4o已应用于企业版Microsoft 365 Copilot,本次更新扩展至消费级版本。相较之下,Microsoft Designer和Image Creator仍采用较老的DALL-E技术。尽管微软与OpenAI有数十亿美元合作,但微软AI负责人穆斯塔法・苏莱曼指出OpenAI模型访问权限存在延迟问题。
原文链接
5月16日,《科创板日报》报道,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),该模型已上线官网并开放注册。相比前代,混元图像2.0参数量提升十倍,实现毫秒级响应,支持实时语音或文字生成图片。测试显示,其在人物、动物特写及复古摄影领域表现优秀,生成图片质量接近电影级别。此次发布标志着腾讯重构混元大模型研发体系后的首个重要进展。两周前,腾讯成立大语言模型部和多模态模型部,加速AI技术研发。腾讯董事会主席马化腾表示,AI已对广告与游戏业务产生实际贡献,未来将进一步拓展AI应用场景,提升用户留存与活跃度。尽管AI整合仍在初期,但用户互动量正逐步增长。
原文链接
5月16日,腾讯混元图像2.0模型(Hunyuan Image2.0)正式发布。该模型具备实时生图和超写实画质两大特点,参数量较前代提升一个数量级,采用全新扩散架构及超高压缩倍率的图像编解码器,生图速度达到毫秒级响应,远快于行业平均水平(5-10秒)。此外,模型生成图像质量显著提升,通过强化学习和人类美学知识对齐,减少了“AI味”。在GenEval基准测试中,其准确率超过95%,大幅领先其他同类模型。新模型还推出实时绘画板功能,支持多图融合与即时线稿上色,革新了传统创作流程。未来,腾讯混元还将推出原生多模态图像生成大模型,进一步优化交互体验。
原文链接
《科创板日报》16日报道,Manus宣布推出全新图像生成功能。该功能不仅限于生成图像,还能理解用户意图,提供定制化解决方案,并有效结合其他工具完成任务。这一创新功能展现了Manus在人工智能领域的进一步探索与应用拓展。
原文链接
《科创板日报》16日消息,腾讯今日发布混元图像2模型(Hunyuan Image2.0),该模型在业内率先实现毫秒级实时生图,并将参数规模提升了数十倍。新模型支持文本、语音及草图等多种创新交互方式,显著提升了用户创作体验。与此同时,腾讯云宣布,专注于多模态图像生成的原生大模型正在研发中,未来有望带来更多突破性功能。这一系列进展标志着腾讯在人工智能图像处理领域迈出了重要一步。
原文链接
近日,华中科技大学盛建中团队研发的AI图像生成系统助力警方找回19名失踪儿童。该系统通过AI技术预测失踪儿童不同年龄段的样貌,解决模糊照片难题,团队还构建了40万人脸数据库并自研算法,修复千张走失儿童照片。此系统结合社会多方力量,推动寻亲进程。截至目前,已有包括孙卓在内的多名失踪多年的儿童与家人团聚。这项技术的应用展现了科技在社会公益领域的创新价值。
原文链接
加载更多

暂无内容