一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

探索 Momentum 生态，瓜分 $101.5 万奖励

热门话题

Bonk 生态迷因币展现强韧势头

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

Solana 新代币发射平台 Boop.Fun 风头正劲

BOOP+16.27%

Boopa+7.52%

PORK-11.24%

Tim Dettmers

Tim Dettmers8月12日 20:08

在我看来，SWE-bench 和 T-bench 是少数几个在我们模型进展方面有良好信号的基准。这款模型的表现与 Qwen3 Coder 相当，仅比 GPT-5 差 10%，同时它还是一款通用的 LLM，而不是专门针对代码的。

Z.ai8月11日 11:43

呈现 GLM-4.5 技术报告！👇 这项工作展示了我们如何通过独特的多阶段训练范式开发出在推理、编码和代理任务方面表现出色的模型。关键创新包括通过自我蒸馏进行专家模型迭代以统一能力、用于动态问题解决的混合推理模式，以及基于难度的强化学习课程。

28.51K

Tim Dettmers 已转发

Andrej Karpathy8月4日 02:36

思维的洗礼：与其保留你的Twitter/𝕏收入，不如将其用于你选择的“收入挑战”——任何你希望在世界上更多的东西！这是我这一轮的挑战，结合我最近的3次收入，总计$5478.51：人类在人工智能崛起的同时，绝不能倒下。人类必须继续崛起，与之共同进步。创造一些专门旨在提升人类团队的东西。定义故意留得有些模糊，以保持人们对其解释的某种熵，但在我看来，例子包括： - 任何有助于解释、可视化、记忆、启发、理解、协调等的软件。 - 不必太高大上，例如，它可以是某个特定的教育文章/视频，解释一些其他人可能受益的内容，或者你拥有独特知识的内容。 - 用于解释的提示/代理，例如，类似于最近发布的ChatGPT学习模式。 - 相关的艺术作品这个挑战将持续2周，直到8月17日太平洋标准时间结束。请将你的贡献作为回复提交。它必须是为这个挑战独特创造的东西，否则不会存在。标准包括执行、杠杆、创新、启发、美学、娱乐。人们可以通过点赞来为提交的作品投票，这个“民意选择”也将是一个因素。我将在8月17日决定获胜者，并发送$5478.51 :)

676.38K

Tim Dettmers 已转发

Akari Asai2025年7月16日

一些更新 🚨 我于 2025 年 6 月在 @uwcse 完成了博士学位！在 AI2 担任研究科学家一年后，我将于 2026 年秋季加入 CMU @LTIatCMU & @mldcmu（礼貌）担任助理教授。旅程、致谢和招聘 🧵

98.79K

Tim Dettmers 已转发

Dan Alistarh2025年7月14日

宣布我们在 LLM 的 FP4 推理方面的早期工作！ - QuTLASS：对 Blackwell GPU 的低精度内核支持 - FP-Quant：用于 Llama/Qwen 的灵活量化工具与 BF16 相比，我们达到了 4 倍的加速，通过 MXFP4 微缩放 + 融合的 Hadamard 旋转具有良好的精度。

22.55K

Tim Dettmers 已转发

Albert Gu2025年7月12日

标记化只是“分块”的一个特例——将低级数据构建成高级抽象——这反过来又是智能的基础。我们的新架构支持分层*动态分块*，不仅没有分词器，而且扩展性更好。

194.73K

Tim Dettmers 已转发

Matej Sirovatka2025年7月8日

人类编写的 GPU 代码的最大数据集都是开源的？👀 是的，请！我们 @GPU_MODE 已经发布了大约 40k 🚀 个人工编写的代码示例，涵盖 Triton、Hip 和 PyTorch，并且所有这些都在 @huggingface Hub 上开放。训练新的 GPT 以使 GPT 更快 ⚡️ 下面的⬇️链接

28.87K

Tim Dettmers 已转发

Albert Gu2025年7月8日

我真的很喜欢这个结果：一个优雅的框架和解决方案，可以显著改善递归模型（RNNs/SSMs/线性注意力等）在长度泛化方面的表现。在我看来，这对架构研究人员应该关注的问题具有重要意义。

13.06K

Tim Dettmers 已转发

Julian Michael2025年7月8日

我可能应该宣布，几个月前，我加入了@scale_AI，领导安全、评估和对齐实验室......今天，我加入了 @Meta，继续致力于 AI 与 @summeryue0 和 @alexandr_wang 的一致性。对我们能共同完成的事情感到非常兴奋！

40.81K

Tim Dettmers 已转发

Graham Neubig2025年7月1日

2026 年的软件开发会是什么样子？随着编码代理的迅速改进，开发角色可能看起来完全不同。我目前的工作流程发生了很大变化： - 在 github 中工作，而不是在 IDE 中工作 - 并行代理 - 写英语，而不是代码 - 更多代码审查想法 + 视频👇

15.62K

Tim Dettmers 已转发

Aditya Kusupati2025年6月27日

📢现在开放，Gemma 3n 配重，它原生灵活，在同类产品中尚属首创，这要归功于 MatFormer🪆 任何介于 E4B 和 E2B 之间的模型，在帕累托附近进行零训练——我们发现了一堆！找到比我们发布的更好的 E3B，我会给你发一个 🪆😉 找到要提取的 🧵👇🪆 colab

30.71K