数据处理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Zleap技术解密：后RAG时代已来，SAG重新定义AI搜索

Zleap技术解密：后RAG时代已来，SAG重新定义AI搜索大家好，我是Jomy，智跃Zleap的CEO。今天我想为大家介绍驱动我们智能Agent的核心技术——SAG（SQL-Retrieval Augmented Generation）。这一技术不仅能帮助企业管理者高效整理和总结海量信息，更可能...

原文链接

量子黑客

11-18 12:13:36

AI搜索

SAG技术

数据处理

分享至

打开微信扫一扫

内容投诉

生成图片

我MiniMax，用实习生处理数据，照样屠榜开源大模型

我MiniMax，用实习生处理数据，照样屠榜开源大模型 MiniMax的M2模型近期在开源社区引发热议，其凭借卓越表现横扫多个榜单，甚至在香港大学的AI-Trader模拟A股大赛中，用10万本金20天赚了近3000元。M2之所以备受关注，不仅因其性能强悍，更因背后的技术路径独树一帜。相比前代M1采...

原文链接

量子黑客

11-04 14:15:32

Full Attention

MiniMax

数据处理

分享至

打开微信扫一扫

内容投诉

生成图片

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节Seed首次开源代码模型Seed-Coder，8B规模，超越Qwen3，拿下多个SOTA。该模型证明“只需极少人工参与，LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据，大幅提升代码生成能力。 Seed-Coder包含Base、Instruct、Reasoning三个版本，其中...

原文链接

DreamCoder

05-11 13:19:07

代码生成

开源模型

数据处理

分享至

打开微信扫一扫

内容投诉

生成图片

镇江数据局回应“DeepSeek上线后单日处理量相当于全市公务员10年工作量”

2月19日，江苏镇江举行新闻发布会，宣布DeepSeek在当地完成部署。镇江数据局透露，该市已建成600台国产算力服务器集群，单日数据处理能力相当于全市公务员10年的总工作量。尽管DeepSeek表现出色，镇江市数据局表示公务员不会因此失业。DeepSeek作为“超级智能大脑”，具有高性价比和智慧超群的特点，预示着技术爆发的到来。镇江计划利用DeepSeek提升政务服务效率，推进‘人工智能+’数字社会行动，以提高城市运营智慧化水平。

原文链接

星际Code流浪者

02-21 15:56:39

DeepSeek

数据处理

智能化

分享至

打开微信扫一扫

内容投诉

生成图片

7天开发一个AI Agent应用！秘密武器：一体化数据库

7天开发一个AI Agent应用！秘密武器：一体化数据库几个工程师、一个星期，就能开发一个AI Agent应用，例如推荐符合要求的奶茶店。过去，构建这样的AI应用需要多个数据库和经验丰富的团队。现在，这一切变得简单，多亏了一体化数据库OceanBase。在最新发布的OceanBase 4.3....

原文链接

智慧棱镜

10-24 19:18:25

一体化数据库

数据处理

分享至

打开微信扫一扫

内容投诉

生成图片

AI 模型数据处理方式引疑虑，欧洲隐私监管机构对谷歌展开调查

摘要：欧洲隐私监管机构已启动对谷歌的正式调查，针对该公司在开发人工智能模型期间处理个人数据的方法。此调查聚焦谷歌的PaLM 2语言模型，由爱尔兰的数据保护委员会执行，依据《通用数据保护条例》(GDPR)进行。调查旨在评估谷歌是否违反了关于处理欧盟及欧洲经济区内公民个人数据的规定，特别是针对新科技的潜在高风险处理方式。调查强调了确保技术发展同时充分保护个人基本权利和自由的重要性。谷歌已承诺与监管机构合作，回应相关问题。此次调查是针对大型科技公司构建大型语言模型行为审查的一部分，此前，Meta因与爱尔兰监管机构讨论后暂停了使用欧洲用户数据训练AI模型Llama的计划，并限制了部分AI产品在该地区的可用性。

原文链接

阿达旻

09-12 23:00:37

AI模型

个人数据处理

欧洲隐私监管机构

分享至

打开微信扫一扫

内容投诉

生成图片

大模型真的在吞噬人类的一切数据吗？

大模型的崛起引发热议，数据被比喻为《沙丘》中的香料，对AI发展至关重要。各方势力竞相争夺数据资源，担心大模型可能在2028年耗尽互联网文本数据。尽管有人认为现有数据足够且未充分利用，但也强调高质量数据的稀缺性和数据清洗、标注的重要性。大模型厂商依赖公开数据，如科学论文和社交媒体，但长期看可能需触及私人数据。数据处理范式转变和有效利用非结构化数据是挑战之一。开源数据支撑模型学习，但数据孤岛和商业利益阻碍了充分共享。数据采集需遵守法规，同时面临隐私和安全问题。研究者呼吁关注数据质量和效率，而非盲目追求规模，数据清洗和优化将成为未来发展关键。

原文链接