SRPO:大语言模型上大规模强化学习的跨领域实现
April 22, 2025 · 小茄墩
真实世界中的价值观:在真实世界语言模型交互中发现和分析价值观
April 22, 2025 · 小茄墩
Claude Code 最佳实践
April 19, 2025 · 小茄墩
Silver、Sutton:欢迎进入经验时代
April 19, 2025 · 小茄墩
字节seed:ReTool:LLM中策略性工具使用的强化学习
April 19, 2025 · 小茄墩
OpenAI 构建智能体指南
April 18, 2025 · 小茄墩
OpenAI研究员姚顺雨:欢迎来到AI的下半场
April 18, 2025 · 小茄墩
白话A2A
April 14, 2025 · 小茄墩
重新思考预训练中的反思现象
April 14, 2025 · 小茄墩
字节Seed:Seed-Thinking-v1.5,超过R1
April 10, 2025 · 小茄墩
字节Seed:PPO 在长思维链(Long-CoT)中崩溃的背后是什么?价值优化掌握着秘密
April 9, 2025 · 小茄墩
字节Seed新作:VAPO:使用基于价值的强化学习框架进行长思维链推理
April 8, 2025 · 小茄墩
DeepSeek-GRM:通用奖励模型实现有效推理时间扩展
April 6, 2025 · 小茄墩
Llama 4 家族:原生多模态 AI 创新新纪元的开端
April 6, 2025 · 小茄墩
multi token attention
April 3, 2025 · 小茄墩
截止2025年4月,好用的语音克隆方案
April 2, 2025 · 小茄墩
JetFormer:自回归大模型,原生图像输出的秘诀?
March 30, 2025 · 小茄墩
MCP究竟是啥?一次很简单的实践
March 30, 2025 · 小茄墩
Anthropic: 追踪大语言模型的思维
March 28, 2025 · 小茄墩
Zero RL Training 成功的几个因素分析
March 27, 2025 · 小茄墩
批判性视角看待R1训练中的坑
March 25, 2025 · 小茄墩
长文本场景下,LLM训练中梯度累加存在的BUG
March 24, 2025 · 小茄墩
LangManus:代码库解析|多智能体|工具调用|browser use
March 20, 2025 · 小茄墩
DAPO:大规模开源 LLM 强化学习系统
March 18, 2025 · 小茄墩
没有层归一化的Transformers
March 14, 2025 · 小茄墩
Gemma 3 技术报告
March 12, 2025 · 小茄墩
Open R1 更新3 在代码领域使用R1的教训
March 12, 2025 · 小茄墩
OpenAI发布一批Agent工具
March 12, 2025 · 小茄墩
R1-Omni:基于强化学习的可解释全方位多模态情感识别
March 11, 2025 · 小茄墩
云端渲染浏览器:Browser-use 详细介绍
March 9, 2025 · 小茄墩
Sutton: 苦涩的教训
March 7, 2025 · 小茄墩
Anthropic:构建有效的Agents
March 6, 2025 · 小茄墩
Chain of Draft
March 2, 2025 · 小茄墩
GPT-4.5
February 28, 2025 · 小茄墩
Approximating KL Divergence: k1 k2 k3是什么
February 27, 2025 · 小茄墩
BIG-MATH 25万高质量数学数据集
February 25, 2025 · 小茄墩
Claude 关于thinking 模式的思考
February 25, 2025 · 小茄墩
DeepSeek 开源周day1: FlashMLA
February 24, 2025 · 小茄墩
小模型的推理困境
February 20, 2025 · 小茄墩
月之暗面新作 MoBA: 用于长文本大语言模型的块注意力混合模型
February 19, 2025 · 小茄墩
DeepSeek新作原生稀疏注意力
February 18, 2025 · 小茄墩
MOE是一个免费的嵌入模型
February 15, 2025 · 小茄墩
蒸馏scaling law
February 14, 2025 · 小茄墩
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
February 13, 2025 · 小茄墩
LLM中的深度诅咒现象
February 12, 2025 · 小茄墩
OpenAI:Competitive Programming with Large Reasoning Models
February 12, 2025 · 小茄墩
Open R1 项目 第二周总结与展望
February 11, 2025 · 小茄墩
PPO训练技巧总览
February 9, 2025 · 小茄墩
使用 Unsloth 训练您自己的 R1 推理模型
February 8, 2025 · 小茄墩
R1-Zero类训练中可能没有顿悟时刻 —— 一项初步研究
February 7, 2025 · 小茄墩
karpathy新课程-深入探讨 ChatGPT 等大语言模型
February 6, 2025 · 小茄墩
Reward Hacking in Reinforcement Learning
February 6, 2025 · 小茄墩
cuda层面实现kernel的库Liger Kernel
February 5, 2025 · 小茄墩
s1: simple test-time scaling
February 3, 2025 · 小茄墩
DeepSeek-R1技术报告详解
February 2, 2025 · 小茄墩
Group Relative Policy Optimization
February 2, 2025 · 小茄墩
SFT 记忆,RL 泛化
February 2, 2025 · 小茄墩