
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
百度推出真·AI相机,拍照存储管理一步到位
百度网盘、文库联合发布“真·AI相机”,集拍照、存储、管理于一体。“即拍即存”功能让照片自动归档至云相册,避免手机存储不足问题。智能分类管理使用户可通过语音描述快速检索目标图片。
AI相机具备多种实用技能:秒变美颜相机,修图效果自然;拍摄花鸟鱼虫时...
原文链接
6月10日,百度AI Day开放日上,百度网盘与文库联合发布行业首款‘拍存管一体’的AI相机,实现全模态输入、处理、输出的完整AI能力。该相机已上线百度网盘APP,支持即拍即存、智能扫描、修图、管理等功能,覆盖生活、学习、工作全场景。例如,生活场景下可进行人像美化、万物识别;学习场景支持拍照解题、错题整理;工作场景则提供文件扫描、翻译等服务。此外,百度文库推出的GenFlow超能搭子2.0升级版,具备多智能体协作能力,可生成多模态内容并支持后链路编辑。截至目前,百度文库MAU达9700万,拥有14亿专业内容资源;百度网盘APP MAU超1.5亿,居国内总榜首位,展现AI时代国民级产品的价值。
原文链接
腾讯计划发布首个全模态模型混元-O,瞄准通用人工智能(AGI),预计今年6月上线端到端语音通话模型Hunyuan-Voice。混元团队以语言模型为核心,探索多模态融合,目标是打造具备自主学习和推理能力的世界模型。腾讯混元已在多个领域取得进展,TurboS模型在权威评测中排名全球前八,理科推理等能力显著提升。腾讯正加大AI投入,2024年研发投入达706.86亿元,过去七年累计超3900亿元。AI落地方面,腾讯元宝接入DeepSeek-R1模型,并支持多业务场景,微信搜索也整合了混元和DeepSeek能力。腾讯计划在AI智能体和商业化落地领域与阿里通义、字节豆包竞争,尤其聚焦“AI+云”平台。
原文链接
以下是原文
正文:百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解,并具备文本和音频的双模态生成能力。据官方称,Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini,尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案,支持多语言对话和音视频实时交互。在视频理解能力方面,通过多个关键环节优化,性能大幅超越GPT-4o mini。模型结构上,支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址:
原文链接
12月16日,无问芯穹宣布开源全球首款端侧全模态理解模型Megrez-3B-Omni,该模型能处理图像、音频、文本三种模态数据。在图像理解方面,它在多个主流测试集中表现优异;在文本理解方面,它在多个权威测试集中达到最优精度;在语音理解方面,支持中英语音输入及复杂多轮对话。此外,其单模态版本Megrez-3B-Instruct在推理速度上比同类模型快300%。相关资源已上传至Github、HuggingFace等平台。
原文链接
全球首个端侧全模态理解开源模型来了!这个模型名为Megrez-3B-Omni,具有多项优势。它能轻松处理图片、音频、文本三种模态数据,且体积轻巧,速度飞快。
在图像理解方面,Megrez-3B-Omni作为3B模型,其综合性能表现超过34B的大模型。它在多个主流测试集上精度最高,能够准确理解和分析图...
原文链接
港中文及中科院团队发布全新预训练范式MiCo,引领全模态智能潮流。通过大规模预训练,MiCo能理解各种模态并学习通用表示,已在10种单模态感知、25种跨模态任务和18种多模态语言模型中取得37项SOTA记录。研究借鉴人脑多模态认知理论,设计出适应全模态(包括图像、音频、文字等)的神经网络结构,旨在解决多模态理解中的问题。MiCo展示了在多项基准测试中的卓越性能,预示着未来全模态AI的潜力。项目开源,期待推动全模态技术发展。#全模态预训练 #MiCo #AI创新
原文链接
加载更多

暂无内容