归档 | 一只小茄墩

2025 ¹¹⁰

October ⁶

DeepSeek OCR:上下文压缩的未来或许根本不属于文本领域

October 20, 2025 · 小茄墩

Andrej Karpathy最新2h30min访谈：信息密度极高！关于智能体，大模型缺陷，强化学习，AGI等等的深度思考

October 19, 2025 · 小茄墩

大模型界的Karpathy地震｜Andrej Karpathy访谈后记

October 19, 2025 · 小茄墩

想从零开始，复刻一个你自己的 ChatGPT 吗？Andrej Karpathy 的 nanochat 项目来了！

October 14, 2025 · 小茄墩

Andrej Karpathy谈：我们真的读懂了“苦涩的教训”吗？

October 9, 2025 · 小茄墩

综述！大模型方向Ask Me Anything汇总(2)

October 9, 2025 · 小茄墩

September ⁴

综述！大模型方向Ask Me Anything汇总

September 29, 2025 · 小茄墩

强化学习之父Sutton最新访谈：大模型的路线走错了？

September 28, 2025 · 小茄墩

关于Claude Code的所有

September 27, 2025 · 小茄墩

大模型入门：彻底学会MOE

September 24, 2025 · 小茄墩

August ⁵

微软GFPO：有效减少思考膨胀问题，system2也可以很自信

August 14, 2025 · 小茄墩

苹果开源超大规模Embedding交互可视化工具

August 13, 2025 · 小茄墩

Anthropic最新研究：大模型中的人格向量

August 12, 2025 · 小茄墩

强化学习的各种方法还可比吗？

August 12, 2025 · 小茄墩

深度解析 Attention Sinks 究竟为啥有效？

August 12, 2025 · 小茄墩

July ⁷

Qwen团队：GSPO算法

July 25, 2025 · 小茄墩

Gemini 2.5 Pro 制胜 IMO 的提示词全解析

July 23, 2025 · 小茄墩

当今旗舰开源大语言模型架构大比拼

July 19, 2025 · 小茄墩

Qwen存在严重数据污染，基于Qwen的RL论文可靠性存疑

July 16, 2025 · 小茄墩

关于 OpenAI 的一些思考 – Calvin French-Owen

July 16, 2025 · 小茄墩

斯坦福最新研究：AI幻觉不是玄学，是算力有上限！

July 16, 2025 · 小茄墩

Karpathy：强化学习不是最终答案，那下一个风口是？

July 14, 2025 · 小茄墩

June ¹³

百度：多智能体AI搜索范式

June 24, 2025 · 小茄墩

Andrej Karpathy：AI时代软件正在再次改变

June 19, 2025 · 小茄墩

Gemini 2.5 报告

June 18, 2025 · 小茄墩

GRPO? DAPO? 我用CISPO！

June 18, 2025 · 小茄墩

Multiverse: 如何让大模型实现原生并行生成？

June 18, 2025 · 小茄墩

“交错推理”减少首token耗时

June 14, 2025 · 小茄墩

Qwen团队：LLM的推理过程的“关键少数”原则

June 14, 2025 · 小茄墩

Sam Altman：悄然降临的奇点

June 12, 2025 · 小茄墩

对近期LLM-RL研究主张的质疑

June 10, 2025 · 小茄墩

强化学习开始做预训练了！

June 10, 2025 · 小茄墩

思考的幻觉？推理模型在高复杂度任务上全部崩溃

June 10, 2025 · 小茄墩

累积互信息量越高，模型预测错误率越低

June 10, 2025 · 小茄墩

蚂蚁强化学习框架又又又大幅升级了！

June 10, 2025 · 小茄墩

May ¹⁷

Gemini API 支持 TTS

May 25, 2025 · 小茄墩

Claude 4 正式发布！

May 23, 2025 · 小茄墩

大型语言模型“思考”的陷阱：推理如何影响指令遵循

May 22, 2025 · 小茄墩

大语言扩散模型

May 22, 2025 · 小茄墩

AI Agent 与 Agentic AI：概念、应用与挑战的深度剖析

May 18, 2025 · 小茄墩

斯坦福CS336：大模型从0到1｜25年最新最好的大模型入门课

May 15, 2025 · 小茄墩

Qwen3 技术报告

May 14, 2025 · 小茄墩

Seed1.5-VL 技术报告

May 14, 2025 · 小茄墩

ICML25 研究发现RoPE又立大功了！

May 11, 2025 · 小茄墩

Ultra-FineWeb：用于高质量大语言模型训练数据的高效数据过滤与验证

May 11, 2025 · 小茄墩

上交最新AI Agent协议综述，开发前都看看

May 11, 2025 · 小茄墩

字节Seed：Seed-Coder，model-centric的领域模型训练

May 11, 2025 · 小茄墩

癫了癫了！清华团队零数据训练推理大模型

May 11, 2025 · 小茄墩

ICLR25 非常细的中文视频描述数据集，强烈推荐

May 2, 2025 · 小茄墩

首个移动端智能体，心响

May 2, 2025 · 小茄墩

DeepSeek-Prover-V1.5：利用证明助手反馈进行强化学习和蒙特卡洛树搜索

May 1, 2025 · 小茄墩

DeepSeek-Prover-V2: 对推理的极致追求

May 1, 2025 · 小茄墩

April ¹⁷

Anthropic CEO Dario: 可解释性的紧迫性

April 27, 2025 · 小茄墩

SRPO：大语言模型上大规模强化学习的跨领域实现

April 22, 2025 · 小茄墩

真实世界中的价值观：在真实世界语言模型交互中发现和分析价值观

April 22, 2025 · 小茄墩

Claude Code 最佳实践

April 19, 2025 · 小茄墩

Silver、Sutton：欢迎进入经验时代

April 19, 2025 · 小茄墩

字节seed：ReTool：LLM中策略性工具使用的强化学习

April 19, 2025 · 小茄墩

OpenAI 构建智能体指南

April 18, 2025 · 小茄墩

OpenAI研究员姚顺雨：欢迎来到AI的下半场

April 18, 2025 · 小茄墩

白话A2A

April 14, 2025 · 小茄墩

重新思考预训练中的反思现象

April 14, 2025 · 小茄墩

字节Seed：Seed-Thinking-v1.5，超过R1

April 10, 2025 · 小茄墩

字节Seed：PPO 在长思维链（Long-CoT）中崩溃的背后是什么？价值优化掌握着秘密

April 9, 2025 · 小茄墩

字节Seed新作：VAPO：使用基于价值的强化学习框架进行长思维链推理

April 8, 2025 · 小茄墩

DeepSeek-GRM：通用奖励模型实现有效推理时间扩展

April 6, 2025 · 小茄墩

Llama 4 家族：原生多模态 AI 创新新纪元的开端

April 6, 2025 · 小茄墩

multi token attention

April 3, 2025 · 小茄墩

截止2025年4月，好用的语音克隆方案

April 2, 2025 · 小茄墩

March ¹⁷

JetFormer:自回归大模型，原生图像输出的秘诀？

March 30, 2025 · 小茄墩

MCP究竟是啥？一次很简单的实践

March 30, 2025 · 小茄墩

Anthropic: 追踪大语言模型的思维

March 28, 2025 · 小茄墩

Zero RL Training 成功的几个因素分析

March 27, 2025 · 小茄墩

批判性视角看待R1训练中的坑

March 25, 2025 · 小茄墩

长文本场景下，LLM训练中梯度累加存在的BUG

March 24, 2025 · 小茄墩

LangManus：代码库解析|多智能体｜工具调用｜browser use

March 20, 2025 · 小茄墩

DAPO：大规模开源 LLM 强化学习系统

March 18, 2025 · 小茄墩

没有层归一化的Transformers

March 14, 2025 · 小茄墩

Gemma 3 技术报告

March 12, 2025 · 小茄墩

Open R1 更新3 在代码领域使用R1的教训

March 12, 2025 · 小茄墩

OpenAI发布一批Agent工具

March 12, 2025 · 小茄墩

R1-Omni：基于强化学习的可解释全方位多模态情感识别

March 11, 2025 · 小茄墩

云端渲染浏览器：Browser-use 详细介绍

March 9, 2025 · 小茄墩

Sutton: 苦涩的教训

March 7, 2025 · 小茄墩

Anthropic：构建有效的Agents

March 6, 2025 · 小茄墩

Chain of Draft

March 2, 2025 · 小茄墩

February ²⁴

GPT-4.5

February 28, 2025 · 小茄墩

Approximating KL Divergence: k1 k2 k3是什么

February 27, 2025 · 小茄墩

BIG-MATH 25万高质量数学数据集

February 25, 2025 · 小茄墩

Claude 关于thinking 模式的思考

February 25, 2025 · 小茄墩

DeepSeek 开源周day1: FlashMLA

February 24, 2025 · 小茄墩

小模型的推理困境

February 20, 2025 · 小茄墩

月之暗面新作 MoBA: 用于长文本大语言模型的块注意力混合模型

February 19, 2025 · 小茄墩

DeepSeek新作原生稀疏注意力

February 18, 2025 · 小茄墩

MOE是一个免费的嵌入模型

February 15, 2025 · 小茄墩

蒸馏scaling law

February 14, 2025 · 小茄墩

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

February 13, 2025 · 小茄墩

LLM中的深度诅咒现象

February 12, 2025 · 小茄墩

OpenAI：Competitive Programming with Large Reasoning Models

February 12, 2025 · 小茄墩

Open R1 项目第二周总结与展望

February 11, 2025 · 小茄墩

PPO训练技巧总览

February 9, 2025 · 小茄墩

使用 Unsloth 训练您自己的 R1 推理模型

February 8, 2025 · 小茄墩

R1-Zero类训练中可能没有顿悟时刻 —— 一项初步研究

February 7, 2025 · 小茄墩

karpathy新课程-深入探讨 ChatGPT 等大语言模型

February 6, 2025 · 小茄墩

Reward Hacking in Reinforcement Learning

February 6, 2025 · 小茄墩

cuda层面实现kernel的库Liger Kernel

February 5, 2025 · 小茄墩

s1: simple test-time scaling

February 3, 2025 · 小茄墩

DeepSeek-R1技术报告详解

February 2, 2025 · 小茄墩

Group Relative Policy Optimization

February 2, 2025 · 小茄墩

SFT 记忆，RL 泛化

February 2, 2025 · 小茄墩

2025 110

October 6

DeepSeek OCR:上下文压缩的未来或许根本不属于文本领域

Andrej Karpathy最新2h30min访谈：信息密度极高！关于智能体，大模型缺陷，强化学习，AGI等等的深度思考

大模型界的Karpathy地震｜Andrej Karpathy访谈后记

想从零开始，复刻一个你自己的 ChatGPT 吗？Andrej Karpathy 的 nanochat 项目来了！

Andrej Karpathy谈：我们真的读懂了“苦涩的教训”吗？

综述！大模型方向Ask Me Anything汇总(2)

September 4

综述！大模型方向Ask Me Anything汇总

强化学习之父Sutton最新访谈：大模型的路线走错了？

关于Claude Code的所有

大模型入门：彻底学会MOE

August 5

微软GFPO：有效减少思考膨胀问题，system2也可以很自信

苹果开源超大规模Embedding交互可视化工具

Anthropic最新研究：大模型中的人格向量

强化学习的各种方法还可比吗？

深度解析 Attention Sinks 究竟为啥有效？

July 7

Qwen团队：GSPO算法

Gemini 2.5 Pro 制胜 IMO 的提示词全解析

当今旗舰开源大语言模型架构大比拼

Qwen存在严重数据污染，基于Qwen的RL论文可靠性存疑

关于 OpenAI 的一些思考 – Calvin French-Owen

斯坦福最新研究：AI幻觉不是玄学，是算力有上限！

Karpathy：强化学习不是最终答案，那下一个风口是？

June 13

百度：多智能体AI搜索范式

Andrej Karpathy：AI时代软件正在再次改变

Gemini 2.5 报告

GRPO? DAPO? 我用CISPO！

Multiverse: 如何让大模型实现原生并行生成？

“交错推理”减少首token耗时

Qwen团队：LLM的推理过程的“关键少数”原则

Sam Altman：悄然降临的奇点

对近期LLM-RL研究主张的质疑

强化学习开始做预训练了！

思考的幻觉？推理模型在高复杂度任务上全部崩溃

累积互信息量越高，模型预测错误率越低

蚂蚁强化学习框架又又又大幅升级了！

May 17

Gemini API 支持 TTS

Claude 4 正式发布！

大型语言模型“思考”的陷阱：推理如何影响指令遵循

大语言扩散模型

AI Agent 与 Agentic AI：概念、应用与挑战的深度剖析

斯坦福CS336：大模型从0到1｜25年最新最好的大模型入门课

Qwen3 技术报告

Seed1.5-VL 技术报告

ICML25 研究发现RoPE又立大功了！

Ultra-FineWeb：用于高质量大语言模型训练数据的高效数据过滤与验证

上交最新AI Agent协议综述，开发前都看看

字节Seed：Seed-Coder，model-centric的领域模型训练

癫了癫了！清华团队零数据训练推理大模型

ICLR25 非常细的中文视频描述数据集，强烈推荐

首个移动端智能体，心响

DeepSeek-Prover-V1.5：利用证明助手反馈进行强化学习和蒙特卡洛树搜索

DeepSeek-Prover-V2: 对推理的极致追求

April 17

Anthropic CEO Dario: 可解释性的紧迫性

SRPO：大语言模型上大规模强化学习的跨领域实现

真实世界中的价值观：在真实世界语言模型交互中发现和分析价值观

Claude Code 最佳实践

Silver、Sutton：欢迎进入经验时代

字节seed：ReTool：LLM中策略性工具使用的强化学习

OpenAI 构建智能体指南

OpenAI研究员姚顺雨：欢迎来到AI的下半场

白话A2A

重新思考预训练中的反思现象

字节Seed：Seed-Thinking-v1.5，超过R1

字节Seed：PPO 在长思维链（Long-CoT）中崩溃的背后是什么？价值优化掌握着秘密

字节Seed新作：VAPO：使用基于价值的强化学习框架进行长思维链推理

DeepSeek-GRM：通用奖励模型实现有效推理时间扩展

Llama 4 家族：原生多模态 AI 创新新纪元的开端

multi token attention

截止2025年4月，好用的语音克隆方案

March 17

JetFormer:自回归大模型，原生图像输出的秘诀？

MCP究竟是啥？一次很简单的实践

2025 ¹¹⁰

October ⁶

September ⁴

August ⁵

July ⁷

June ¹³

May ¹⁷

April ¹⁷

March ¹⁷

February ²⁴

Open R1 项目第二周总结与展望