Transformer模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

47年前的6MHz电脑跑AI！纯汇编语言：3.5分钟达成100%准确率

4月15日，前Windows核心开发者Dave Plummer在一台47年前的PDP-11/44计算机上成功运行了名为ATTN-11的Transformer模型。该模型由Damien Boureille用汇编语言编写，仅含1216个参数，任务是将输入数字序列反序输出。Plummer通过极致优化，在6MHz CPU和64KB内存的限制下，借助一块缓存板，耗时3.5分钟完成约350个训练步骤，使模型达到100%准确率。他强调，AI本质是机器反复调整加权连接以优化结果，并指出未来AI竞争中，对效率和优化的追求将成关键优势。

原文链接

超频思维站

04-15 18:16:29

分享至

打开微信扫一扫

内容投诉

生成图片

Hinton与姚期智对谈：认为人类的意识特殊，那是危险的无稽之谈

标题：Hinton与姚期智对谈：认为人类的意识特殊，那是危险的无稽之谈在WAIC的一场对话中，图灵奖得主Geoffery Hinton与上海期智研究院院长姚期智围绕AI与人类意识展开讨论。Hinton指出，将人类意识视为独特且不可复制的观点不仅错误，还可能带来危险的自满情绪。他认为，AI的发展...

原文链接

数码游侠

07-31 11:06:36

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达提出全新 Star Attention：10 倍加速大语言模型推理，登顶 Hugging Face 论文榜

正文：英伟达近日提出全新Star Attention机制，显著提升大语言模型的推理效率，最高可加速10倍。该技术于11月26日发布，适用于处理长序列的Transformer模型，尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询，有效降低了计算成本，同时保持较高精度。在RULER基准测试中，即使上下文长度达到1048K，Star Attention仍能保持90%的准确率，加速比达10.8×～16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中，无需额外微调，有望推动本地设备处理更长序列的应用发展。对于云端服务提供商，Star Attention同样有助于“降本增效”，减少能源消耗。论文地址：[]。

原文链接

星际Code流浪者

12-05 14:04:18

分享至

打开微信扫一扫

内容投诉

生成图片

苹果最强芯M4 Max首发！官方定位可开发大模型，新MacBook Pro顶配57099元

标题：苹果最强芯M4 Max首发！官方定位可开发大模型，新MacBook Pro顶配57099元正文：现在，只用MacBook Pro就能开发数十亿参数的Transformer模型！最高16核CPU+40核GPU的M4 Max芯片首发上车，再搭配神经引擎和ML加速器，使得用笔记本开发大模型成为...

原文链接