压缩 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

标题：3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，准确率超98% 正文： 3B模型超越Meta 7B模型，超长视频理解SOTA刷新！上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro，实现近万帧视频单卡处理，大海捞针准确率超98%。当前多模态大模型...

原文链接

Oasis

05-04 23:17:35

Video-XL-Pro

重构式token压缩

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

上交大冷静文：模型发展需要和芯片、系统厂商协同

标题：上交大冷静文：模型发展需芯片与系统协同近期，上海交通大学与魔形智能联合研究团队在 HPCA 2025 会议上发表论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infere...

原文链接

WisdomTrail

04-30 20:26:59

向量量化

国产芯片

大模型压缩

分享至

打开微信扫一扫

内容投诉

生成图片

被DeepSeek带火的知识蒸馏开山之作曾被拒：诺奖得主坐镇都没用

Hinton、Oriol Vinyals、Jeff Dean合著的《Distilling the Knowledge in a Neural Network》论文，首次提出知识蒸馏概念，大幅提升模型压缩效率。尽管由深度学习之父Hinton等三位大佬撰写，该论文仍遭NeurIPS 2014拒收，理由是缺乏创新和影响力。知识蒸馏技术让模型能在保持准确率的情况下大幅压缩参数，使Siri等应用得以部署。论文提出用软目标替代硬目标，通过调整温度参数T来优化训练。实验显示，知识蒸馏在多个领域均取得显著成果，成为行业标配。

原文链接

幻彩逻辑RainbowLogic

02-07 18:04:58

Hinton

模型压缩

知识蒸馏

分享至

打开微信扫一扫

内容投诉

生成图片

压缩算法为大语言模型“瘦身”

近日，美国普林斯顿大学和斯坦福大学的研究团队开发出一种名为CALDERA的新压缩算法，能够有效精简大型语言模型（LLM）的数据量，从而实现“瘦身”。该算法不仅能保护数据隐私，节省能源并降低运营成本，还使得LLM在手机和笔记本电脑上的应用更加高效。此技术突破对于推动LLM在更广泛设备上的应用具有重要意义。（200字）

原文链接

WisdomTrail

11-22 08:57:50

压缩算法

大语言模型

数据瘦身

分享至

打开微信扫一扫

内容投诉

生成图片

“Prompt之神”李继刚：我想用20年时间，给世界留一句话

标题：“Prompt之神”李继刚：20年留一句李继刚是AI领域中Prompt领域的知名人物。去年8、9月份，他的Prompt已在各大Prompt网站和社群中广为传播，例如著名的“公文笔杆子”。今年9月初，“汉语新解”再度将他推向公众视野。李继刚几乎已成为国内“Prompt”的代名词。我与李继刚相...

原文链接

镜像现实MirageX

11-05 14:59:25

Prompt

压缩

哲学

分享至

打开微信扫一扫

内容投诉

生成图片

超长视频理解难平衡性能和效率

标题：超长视频理解：平衡性能与效率的新突破仅需一块80G显卡，大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。该模型借助语言模型（LLM）的压缩能力处理长视觉序列，不仅保持了短视频理解能力...

原文链接

像素宇宙

10-28 17:57:47

性能平衡

视觉压缩

超长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强压缩工具包来了

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强压缩工具包来了近期，Llama-3.1登顶开源领域，其405B版本模型对资源提出了更高要求，高达900多GB的内存需求。为应对这一挑战，北航、商汤、南洋理工等团队联手研发出大模型压缩工具与基准LLMC，使一张80G A100显卡就能完成L...

原文链接

新智燎原

08-02 17:05:22

LLMC

大模型压缩

量化精度

分享至

打开微信扫一扫

内容投诉

生成图片

AI视觉基础：学习压缩图像

AI视觉研究聚焦于通过学习压缩图像，模型掌握了视觉世界的结构，形成有效的图像表示。现有数据可能已足够推动进展，但当模型强大到能模拟自身世界时，新奇的事物会出现。例如，DALL·E的扩展展示了从简单光照到复杂艺术风格的逐步提升。研究者探讨了不同规模下的模型能力，如视觉智商测试和图像合成，同时也指出语言在模型中的关键作用，但不是唯一路径。CLIP模型的出现强调了无需人工标签的通用分类，而大规模图像生成模型如iGPT和DALL·E则显示了从像素到表示的自我学习能力。随着计算力增强，模型可以从文本学习图像信息，反过来亦然，但如何平衡语言与视觉的交互，以及在不同资源限制下的最佳训练策略，仍是未来探索的方向。

原文链接