- 深度强化学习(DRL)算法 2 —— PPO 之 GRPO 篇
- AI Infra 01 - Paged Attention:大语言模型推理的内存优化利器
- 使用 vLLM Production Stack 快速在单卡上部署多个 Embedding 模型实例
- cleanvllm: 从 0 到 1 构建一个 vLLM
- GPU编程自学指南 - 03 分块矩阵乘法(Tiled)
- GPU 编程自学指南
| Category | Project / Achievement | Link |
|---|---|---|
| Competition | 🥈 FT-Data-Ranker 1B赛道 第 8 名 | View Repo |
| Model | 🤖 tao-8k | HuggingFace |
| Model | 🤖 dpo-phi2 | HuggingFace |
| Model | 🤖 spin-phi2 | HuggingFace |
| Model | 🤖 t1-3B-grpo | HuggingFace |



