Tags
- A2A 1
- Agent 4
- Agents 1
- AI 1
- Anthropic 2
- attention 3
- claude 2
- COD 1
- code 2
- COT 1
- DAPO 1
- dataset 1
- Deepseek 6
- embedding 1
- flashmla 1
- Gemma 1
- Google 1
- grpo 2
- kimi 1
- kl 1
- llama 1
- LLM 1
- Manus 1
- MCP 2
- MOE 1
- OpenAI 4
- ppo 1
- r1 11
- Reward Hacking 1
- RL 14
- scaling law 1
- seed 1
- SFT 1
- SRPO 1
- think 1
- tool use 1
- Transformers 1
- vapo 1
- vc-ppo 1
- verl 1
- voice 1
- 价值观 1
- 原生图像输出 1
- 反思 1
- 多模态 1
- 大模型 5
- 奖励模型 1
- 开源 1
- 模型训练 23
- 蒸馏 1
- 长文本 1