量化 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Claude翻车：Opus 4.1白天退化，Anthropic承认并回滚更新

2025年9月1日，Anthropic公司承认其最新发布的Claude Opus 4.1模型出现性能退化问题，并已回滚更新。用户反馈显示，该模型在上午10点至11点间推理性能显著下降，尤其在处理复杂任务时错误频发，但凌晨时段表现正常。推测问题源于白天使用1.58位量化技术，导致模型精度和稳定性不足。此外，用户还报告了使用时长限制不明确及API密钥暴露等问题。Anthropic官方迅速回应，承认推理堆栈调整失误，影响响应质量，并表示已修复问题，同时对受影响的Claude Opus 4.0版本进行同步处理。网友对官方坦诚态度表示认可。

原文链接

幻彩逻辑RainbowLogic

09-01 18:21:10

分享至

打开微信扫一扫

内容投诉

生成图片

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当。西风发自凹非寺量子位 | 公众号 QbitAI 微软发布首个开源2B参数规模“原生1bit”LLM——BitNet b1.58 2B4T，单CPU即可运行，性能媲美同规模全精度模型...

原文链接

LunarCoder

04-21 12:38:13

分享至

打开微信扫一扫

内容投诉

生成图片

突破瓶颈！北航ETH等首次将扩散模型完全量化至1bit，28倍存储节省+52.7倍效率提升

北航、ETH等机构的研究人员提出了一种名为BiDM的新方法，首次将扩散模型（DMs）的权重和激活完全二值化。此方法从时间（TBS）和空间（SPD）角度优化扩散模型。实验显示，W1A1 BiDM在LSUN-Bedrooms 256×256上的LDM-4模型上取得22.74的FID分数，远超当前最先进方...

原文链接

智慧棱镜

01-11 12:37:26

分享至

打开微信扫一扫

内容投诉

生成图片

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

标题：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了宾夕法尼亚州立大学、哈佛大学及亚马逊团队的一项研究显示，4-bit量化可以让现有反学习/机器遗忘技术失效。即大模型在人类要求下“忘记”特定知识（如版权、私人内容等），但通过量化技术，这些知识能被重新“回忆”起来。研究发现，量化过程中的微...

原文链接

E-Poet

11-16 20:37:04

分享至

打开微信扫一扫

内容投诉

生成图片

近日，宾夕法尼亚州立大学、哈佛大学和亚马逊的研究团队发现，通过4-bit量化技术，可以部分或完全恢复大模型中已被删除的隐私和版权内容。现有反学习技术虽能“忘记”特定知识，但4-bit量化却让这些知识重新显现。研究显示，经过4-bit量化，遗忘知识的比例从21%急剧上升至83%，而8-bit量化的影响较小。该现象的原因在于反学习方法为了保持模型效用，使用较小的学习率和效用约束，导致量化过程中原模型和遗忘后模型的权重容易映射到相同的离散值。为此，研究团队提出了SURE框架，通过构建模块级显著性图，选择性地使用较大学习率来指导遗忘过程，有效防止量化后遗忘知识的恢复。研究成果已发表在预印本平台arXiv上，代码也在GitHub公开。这一发现引发了学术界和公众的关注，引发了对模型遗忘机制的进一步讨论。

原文链接

Journeyman

11-16 16:31:57

分享至

打开微信扫一扫

内容投诉

生成图片

Scaling Law终结，量化也不管用，AI大佬都在审视这篇论文

哈佛、斯坦福和麻省理工的研究团队发现，大规模训练任务需要更高的精度。研究显示，Llama-3在不同数据量下，随着数据集增大，计算所需的精度也增加。这意味着低精度量化可能不再足够有效。论文指出，以往人们倾向于量化以节省计算资源，但随着模型规模扩大，高精度变得必要。这一结论可能影响GPU设计，因为GP...

原文链接

数码游侠

11-13 16:46:53

分享至

打开微信扫一扫

内容投诉

生成图片

今日最热论文：Scaling Law终结，量化也不管用，AI大佬齐刷刷附议

标题：今日最热论文：Scaling Law终结，量化不再适用，AI大佬纷纷赞同这篇论文一经发布便引起广泛关注，被业界视为“很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的研究表明，训练的token越多，所需的精度就越高。例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星40...

原文链接

跨界思维

11-13 15:39:06

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 推出 Llama 3.2 1B / 3B 模型量化版：功耗更低、可适用更多轻量移动设备

Meta公司于10月24日发布了Llama 3.2模型的量化版本，包括1B和3B两个版本，分别命名为Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA和Llama 3.2 3B SpinQuant。量化技术通过将浮点模型转换为定点...

原文链接

新智燎原

10-27 15:08:10

分享至

打开微信扫一扫

内容投诉

生成图片

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

标题：清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ，支持8比特和4比特混合精度推理，实现近无损量化并提升推理吞吐。MixQ利用低精度张量核心（INT8/INT4 Tensor Core）加速推理，同时提取...

原文链接

代码编织者Nexus

10-21 14:27:47

分享至

打开微信扫一扫

内容投诉

生成图片

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

摘要：随着2024年的过半，AI领域内普遍认识到，AI技术的价值在于其广泛的应用。各大科技公司，包括互联网巨头和手机制造商，都在积极探索AI杀手级应用。焦点集中在如何使大规模模型在手机等资源受限的终端设备上流畅运行。在顶级学术会议ICML和CVPR上，高通展示了在安卓手机上本地部署大规模多模态模...

原文链接