昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数。 但其实就在同一天,月之暗面也发布了一篇主题类似的论文,并且同样巧合的是,月之暗面创始人兼 CEO ...
一度狂跌的英伟达股价,又被Grok-3盘活了?20万块GPU训出的模型超越DeepSeek和OpenAI,证明Scaling Law还在继续增长!Ai2研究者大佬直言:Grok-3,就是DeepSeek给美国AI企业压力的又一力证。
团队新研发的镍基材料超导起始转变温度达到了45K(-229℃),并且成功观测到了“零电阻”和“抗磁性”的双重特征。 中国高温超导,再迎新突破! 南方科技大学校长薛其坤院士领衔的团队,最新研究成果加急发表在了Nature。
OpenAI刚刚发布SWE-Lancer编码基准测试,直接让AI模型挑战真实外包任务!这些任务总价值高达100万美元。有趣的是,测试结果显示,Anthropic的Claude 3.5 ...
2025年「诺奖风向标」斯隆研究奖公布了!一共126位来自七大科学领域科学家获奖,计算机领域共有22位学者。其中,华人学者占8席。值得一提的是,迄今已有58位斯隆研究员拿下诺贝尔奖。 其中一些分别来自国内高校的校友,有清华姚班校友Zhihao Jia ...
OpenAI 的评估结果显示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到,Claude 3.5 Sonnet 完成的任务最多,并且挣到了最高的 ...
对此,上海人工智能实验室、卡耐基梅隆大学、新加坡国立大学和新加坡南洋理工大学团队提出DynamicCity,给出了突破性的解答。这项创新性工作以4D 到 2D 的特征降维为核心突破点,首次实现了高质量、高效的 4D ...
实验表明,在解码64k上下文时,基于softmax架构的注意力计算占到总延迟的70%-80%。而在不影响性能的前提下,NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速。
英伟达CEO黄仁勋近日在接受采访时放出重磅预言——「每个人都应该立刻拥有一个AI导师!」这位执掌万亿级芯片帝国的科技巨擘,为何对AI教育如此推崇?AI导师如何重塑我们的学习方式?未来工作格局又将如何演变?让我们一起揭开AI导师时代的面纱!
其中,有我们熟知的,OpenAI前安全副总裁、北大校友翁荔(Lilian Weng)、前OpenAI多模态后训练负责人Alexander Kirillov等等。
据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。这是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。 论文标题:Native Sparse Attention: ...
此外,尤其值得关注是该公司背后的豪华团队阵容,其中包括多位前 OpenAI 重要成员,如担任首席科学家的 John Schulman、著名 AI 研究科学家和博客作家翁荔。 上述推文中也写到:「我们是一些最广泛使用的 AI ...
Results that may be inaccessible to you are currently showing.
Hide inaccessible results