t_wの輪郭

DPO

2024/3/10 4:46:00

Direct Preference Optimization

2025/8/7 5:12:00

LLMの学習用途かと思ったら対人間の教育用途だった。
AIが無限に問題を生成できたら、人間も無限に学習できそう。

過去の研究では『Prologによる解法知識を用いた誤答解説文付き多肢選択問題の生成』とかもあるけど、文章を何も加工せずにLLMに処理させたら問題が出てくると、作成者にとってはかなり楽である。

難易度調整精度を最大化するために、DPOが使われている。DPO便利だ。

2024/3/10 4:52:00

2024/3/10 4:47:00

https://huggingface.co/docs/trl/index
Transformer Reinforcement Learning
DPOを行うためのライブラリ。

2024/3/10 4:46:00