2025  57

April  16

SRPO:大语言模型上大规模强化学习的跨领域实现

April 22, 2025 · 小茄墩

真实世界中的价值观:在真实世界语言模型交互中发现和分析价值观

April 22, 2025 · 小茄墩

Claude Code 最佳实践

April 19, 2025 · 小茄墩

Silver、Sutton:欢迎进入经验时代

April 19, 2025 · 小茄墩

字节seed:ReTool:LLM中策略性工具使用的强化学习

April 19, 2025 · 小茄墩

OpenAI 构建智能体指南

April 18, 2025 · 小茄墩

OpenAI研究员姚顺雨:欢迎来到AI的下半场

April 18, 2025 · 小茄墩

白话A2A

April 14, 2025 · 小茄墩

重新思考预训练中的反思现象

April 14, 2025 · 小茄墩

字节Seed:Seed-Thinking-v1.5,超过R1

April 10, 2025 · 小茄墩

字节Seed:PPO 在长思维链(Long-CoT)中崩溃的背后是什么?价值优化掌握着秘密

April 9, 2025 · 小茄墩

字节Seed新作:VAPO:使用基于价值的强化学习框架进行长思维链推理

April 8, 2025 · 小茄墩

DeepSeek-GRM:通用奖励模型实现有效推理时间扩展

April 6, 2025 · 小茄墩

Llama 4 家族:原生多模态 AI 创新新纪元的开端

April 6, 2025 · 小茄墩

multi token attention

April 3, 2025 · 小茄墩

截止2025年4月,好用的语音克隆方案

April 2, 2025 · 小茄墩

March  17

JetFormer:自回归大模型,原生图像输出的秘诀?

March 30, 2025 · 小茄墩

MCP究竟是啥?一次很简单的实践

March 30, 2025 · 小茄墩

Anthropic: 追踪大语言模型的思维

March 28, 2025 · 小茄墩

Zero RL Training 成功的几个因素分析

March 27, 2025 · 小茄墩

批判性视角看待R1训练中的坑

March 25, 2025 · 小茄墩

长文本场景下,LLM训练中梯度累加存在的BUG

March 24, 2025 · 小茄墩

LangManus:代码库解析|多智能体|工具调用|browser use

March 20, 2025 · 小茄墩

DAPO:大规模开源 LLM 强化学习系统

March 18, 2025 · 小茄墩

没有层归一化的Transformers

March 14, 2025 · 小茄墩

Gemma 3 技术报告

March 12, 2025 · 小茄墩

Open R1 更新3 在代码领域使用R1的教训

March 12, 2025 · 小茄墩

OpenAI发布一批Agent工具

March 12, 2025 · 小茄墩

R1-Omni:基于强化学习的可解释全方位多模态情感识别

March 11, 2025 · 小茄墩

云端渲染浏览器:Browser-use 详细介绍

March 9, 2025 · 小茄墩

Sutton: 苦涩的教训

March 7, 2025 · 小茄墩

Anthropic:构建有效的Agents

March 6, 2025 · 小茄墩

Chain of Draft

March 2, 2025 · 小茄墩

February  24

GPT-4.5

February 28, 2025 · 小茄墩

Approximating KL Divergence: k1 k2 k3是什么

February 27, 2025 · 小茄墩

BIG-MATH 25万高质量数学数据集

February 25, 2025 · 小茄墩

Claude 关于thinking 模式的思考

February 25, 2025 · 小茄墩

DeepSeek 开源周day1: FlashMLA

February 24, 2025 · 小茄墩

小模型的推理困境

February 20, 2025 · 小茄墩

月之暗面新作 MoBA: 用于长文本大语言模型的块注意力混合模型

February 19, 2025 · 小茄墩

DeepSeek新作原生稀疏注意力

February 18, 2025 · 小茄墩

MOE是一个免费的嵌入模型

February 15, 2025 · 小茄墩

蒸馏scaling law

February 14, 2025 · 小茄墩

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

February 13, 2025 · 小茄墩

LLM中的深度诅咒现象

February 12, 2025 · 小茄墩

OpenAI:Competitive Programming with Large Reasoning Models

February 12, 2025 · 小茄墩

Open R1 项目 第二周总结与展望

February 11, 2025 · 小茄墩

PPO训练技巧总览

February 9, 2025 · 小茄墩

使用 Unsloth 训练您自己的 R1 推理模型

February 8, 2025 · 小茄墩

R1-Zero类训练中可能没有顿悟时刻 —— 一项初步研究

February 7, 2025 · 小茄墩

karpathy新课程-深入探讨 ChatGPT 等大语言模型

February 6, 2025 · 小茄墩

Reward Hacking in Reinforcement Learning

February 6, 2025 · 小茄墩

cuda层面实现kernel的库Liger Kernel

February 5, 2025 · 小茄墩

s1: simple test-time scaling

February 3, 2025 · 小茄墩

DeepSeek-R1技术报告详解

February 2, 2025 · 小茄墩

Group Relative Policy Optimization

February 2, 2025 · 小茄墩

SFT 记忆,RL 泛化

February 2, 2025 · 小茄墩