AI
FAQ
访问主站
↗
AI/ML 常见问题知识库
使用 GitHub 登录
深色
中文
EN
⌘K
内容+分类
全文
分类筛选
主类
基础概念
3
模型结构
77
后训练与对齐
13
强化学习
6
检索系统
3
推理与部署
20
主题
注意力
51
Transformer
50
Embedding
25
KV Cache
25
归一化
17
残差连接
11
RAG
9
RoPE
8
量化
7
PPO
6
GRPO
5
RLHF
4
SFT
4
LoRA
4
奖励模型
3
指令微调
2
DPO
2
蒸馏
2
比较
★
我的关注
全部展开
全部折叠
精简
详细
排序:
默认
时间
难度
共 100 条,第 1/10 页
123
RLHF和RLVR的区别和演进是什么?
30天内有更新
2026-04-04
后训练与对齐
强化学习
RLHF
PPO
122
什么时候认为SFT训练够了
30天内有更新
2026-03-29
后训练与对齐
SFT
指令微调
115
GSPO和DAPO分别解决了什么问题?怎么解决的?
2026-03-15
强化学习
后训练与对齐
GRPO
PPO
114
重要性采样解决了什么问题?公式是怎么样的?解释下每个参数。
2026-03-15
强化学习
基础概念
GRPO
PPO
113
GRPO利用的数据是旧策略产生的,那为什么还叫on policy?GRPO的buffer了解吗?
2026-03-15
强化学习
后训练与对齐
GRPO
PPO
112
GRPO是on policy还是off policy?为什么?
2026-03-15
强化学习
后训练与对齐
GRPO
PPO
111
解释一下deepspeed的三个zero stage,分别优缺点是什么?什么场景下使用?
2026-03-04
推理与部署
后训练与对齐
110
手撕:括号生成,要求讲清楚剪枝逻辑。
2026-03-03
109
LoRA rank为什么这么选?有没有做过ablation?
2026-03-03
后训练与对齐
LoRA
量化
100
QLoRA稳定性问题你遇到过吗?如何兜底?
2026-03-03
模型结构
后训练与对齐
Transformer
LoRA
共 100 条,第 1/10 页
每页 10 条
每页 20 条
每页 50 条
上一页
1
2
...
10
下一页