Gemini 2.5 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌发布 Gemini 2.5 Computer Use 模型：专攻浏览器交互，支持 13 种操作

10月8日，谷歌发布全新AI模型“Gemini 2.5 Computer Use”，专为浏览器交互设计，支持13种操作，如填写表单、打开网页等。该模型利用视觉理解与推理能力，可在人用界面中执行任务，适用于用户界面测试或无API系统的操作。谷歌称其在多项基准测试中优于现有方案，并开放了在线演示功能，包括玩2048游戏和浏览Hacker News讨论。与ChatGPT智能体等工具不同，该模型仅限于浏览器环境，尚未支持桌面系统层级的控制。此次发布恰逢OpenAI推出ChatGPT新应用次日，AI领域的竞争进一步升温。

原文链接

AI幻想空间站

10-09 09:08:03

AI模型

Gemini 2.5 Computer Use

浏览器交互

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌Nano Banana全网刷屏，起底背后团队

2025年8月，谷歌DeepMind团队在最新开发者节目中展示了Gemini 2.5 Flash Image模型，该模型具备原生图像生成与编辑能力，支持多轮对话式场景一致性操作，堪称图像生成领域的革命性突破。其亮点包括创意解读模糊指令、文本渲染改进及复杂任务的交错生成机制，适用于家居设计、人物OOTD等场景。团队核心成员包括Logan Kilpatrick、Kaushik Shivakumar、Robert Riachi、Nicole Brichtova和Mostafa Dehghani，他们在AI、多模态学习等领域有深厚积累。相比专注文本到图像的Imagen，Gemini更适合复杂多模态任务，未来目标是迈向通用人工智能（AGI）。

原文链接

像素宇宙

08-29 12:39:40

Gemini 2.5 Flash Image

Google DeepMind

交错生成

分享至

打开微信扫一扫

内容投诉

生成图片

没有发布会，没有CEO站台，谷歌用一根“香蕉”赢得了欢呼

8月中旬，一款名为nano-banana的匿名模型在LMArena平台盲测中因惊人效果引发关注，用户争相测试。北京时间8月27日，谷歌认领该模型，正式发布为Gemini 2.5 Flash Image，可在Gemini app等平台使用。其核心技术亮点包括颠覆性一致性、自然语言驱动编辑和闪电速度响应。实测显示，模型在多图融合和一致性上表现优异，但部分任务如商品尺寸调整翻车。此次发布采用匿名盲测到官方认领策略，借助社区传播形成病毒式扩散，被称为“一致性之王”。这一模式为AI模型发布提供了新思路。

原文链接

星际Code流浪者

08-28 10:21:15

Gemini 2.5 Flash Image

nano-banana

一致性

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌正式发布图像生成模型Gemini 2.5 Flash Image

8月26日，谷歌发布其最新图像生成与编辑模型Gemini 2.5 Flash Image（代号“纳米香蕉”）。该模型在LMArena基准测试中排名AI图像编辑模型榜首，支持角色一致性保持、自然语言修图及多图融合，并借助Gemini世界知识提升智能表现。用户可通过Gemini App或API访问，API定价为每百万输出token 30美元。据官方估算，生成单张图片约消耗1290个输出token，成本约为0.039美元。这一工具的推出为图像创作和编辑领域带来全新可能性。

原文链接

超频思维站

08-27 09:04:32

Gemini 2.5 Flash Image

图像生成模型

谷歌

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 Gemini 2.5 Flash 升级 AI 修图功能，多项表现优于 GPT-4o

8月26日，谷歌DeepMind发布Gemini 2.5 Flash图像编辑模型，支持基于文字指令的高精度修图，在多项任务中表现优于GPT-4o。新模型亮点包括“角色一致性”功能，可确保人物、动物或物体在多张图片中外观一致，适合批量制作品牌素材与产品目录。此外，它支持局部编辑、风格迁移以及简单因果推理（如生成气球撞向仙人掌的画面）。该功能已在Gemini应用上线，用户需切换至“Flash”模式使用，生成图像带水印。开发者可通过Gemini API等试用，费用为每百万token 30美元，单张图片约0.039美元。

原文链接

智能维度跳跃

08-27 09:00:44

Gemini 2.5 Flash

图像编辑

角色一致性

分享至

打开微信扫一扫

内容投诉

生成图片

仅用提示词工程摘下IMO金牌！清华校友强强联手新发现，学术界不靠砸钱也能比肩大厂

2025年8月，两位清华校友杨林和黄溢辰通过提示词工程和自我迭代验证流程，让基础模型Gemini 2.5 Pro成功解决了IMO 2025的5道题目，达到金牌水平。研究团队设计了一套六步验证流程，利用通用提示词显著提升模型推理能力，无需依赖高昂计算资源。实验结果表明，结构化迭代能突破单次生成的局限性，而详细的提示词可提高效率但不增加新能力。尽管第六题未能解决，研究人员认为验证器改进是关键。此研究展示了学术界在有限资源下也能媲美大厂的潜力，并期待AI未来在数学领域的更大贡献。论文链接及代码已公开。

原文链接

量子黑客

08-02 14:17:45

Gemini 2.5 Pro

IMO金牌

提示词工程

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌IMO金牌模型可以用了！推理性能秒了o3、Grok 4

谷歌DeepMind推出的Gemini 2.5 Deep Think模型现已在Gemini App上线，该模型曾获IMO金牌。新版速度更快，但实力略逊于原版，可达到IMO铜牌水平。模型仅对Ultra订阅用户开放，月费约1803元人民币。DeepMind称其推理性能超越OpenAI的o3和马斯克的Grok 4，在代码性能和科学知识测试中表现最佳。优势包括迭代开发、科学数学发现、算法编写等。通过扩展并行“思考时间”，模型能生成多种想法并优化解决方案。团队还开发了强化学习技术提升性能，模型还可融合多篇论文观点，助力研究。参考链接已附上。

原文链接

Journeyman

08-02 10:14:11

Gemini 2.5 Deep Think

IMO金牌模型

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

多项力压 Grok 4、OpenAI o3，谷歌推出 Gemini 2.5 Deep Think 模型

8月1日，谷歌正式发布Gemini 2.5 Deep Think模型，现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4，性能显著提升。Deep Think模式可在作答前综合多个假设进行推理，并集成代码执行与谷歌搜索等功能。谷歌透露，该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体，虽经加速优化，但在2025年IMO基准测试中仅达铜牌水平。目前，用户可在Gemini应用中限定次数使用Deep Think功能，未来几周还将通过Gemini API向开发者提供不同版本。

原文链接

数字墨迹

08-01 23:08:15

Gemini 2.5 Deep Think

基准测试

谷歌

分享至

打开微信扫一扫

内容投诉

生成图片

ChatGPT 还没学会打电话，谷歌搜索 AI 已经替你电话约服务，还会谈价砍单

谷歌搜索推出三大AI革新功能，包括集成Gemini 2.5 Pro模型、Deep Search深度搜索功能以及AI代打电话服务。目前这些功能已在美国上线，未来将推广至全球。AI代打电话功能尤为引人注目，用户只需输入需求，AI会自动匹配商家并拨号预约，甚至谈价砍单。此外，Gemini 2.5 Pro支持复杂查询和推理，Deep Search则可快速生成带引用的深度报告。谷歌搜索负责人Robby Stein表示，这些升级旨在提升用户体验并为商家创造新机会。不过，部分用户担忧AI电话可能带来骚扰问题。此次更新体现了谷歌试图将AI融入日常生活，尤其在本地生活服务领域展现潜力。

原文链接

跨界思维

07-17 15:27:09

AI代打电话

Gemini 2.5 Pro

谷歌搜索

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini 2.5 Pro负责人：最强百万上下文，做好了能解锁很多应用场景

Gemini 2.5 Pro模型在AI编程实践中，能够直接读取整个项目，带来全新的体验。长上下文能革新产品交互并开启全新应用场景。谷歌DeepMind的Nikolay Savinov指出，当前百万级token上下文质量尚未完美，盲目追求更大规模意义不大；随着成本下降，千万级token上下文将成为标准...

原文链接