t_wの輪郭

学習強化 Reinforcement Learning RL

強化学習

2021/3/2 15:42:00

『How Well Does RL Scale? — Toby Ord』『デジタルゲームにおける強化学習の実践的活用』生成AIモデルは少ない事前学習で性能向上が可能になってきているあれ『人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』Actor-Critic MCTS DQN Policy Gradient 『強化学習アルゴリズム整理 - joeの日記』OpenAI Gym 強化学習するUI RL Slimebot Volleyball gitのdiffでコード生成AIを強化学習 DPO あれあれ退屈嫌いAI オフライン強化学習

『How Well Does RL Scale? — Toby Ord』

2026/2/20 3:25:00

https://www.tobyord.com/writing/how-well-does-rl-scale

『How persistent is the inference cost burden? - by...

論文未読論文強化学習

『デジタルゲームにおける強化学習の実践的活用』

2025/9/18 10:33:00

https://www.jstage.jst.go.jp/article/pjsai/JSAI2024/0/JSAI2024_1I5OS31b02/_article/-char/ja/

LLM 強化学習蒸留事前学習欧州AI規制法が使うモデル性能指標（事前学習計算量）は不適切生成AIモデル

生成AIモデルは少ない事前学習で性能向上が可能になってきている

2025/9/15 0:52:00

『Three challenges facing compute-based AI policies...

LLM 強化学習「究極的に殴って統制するしかない」あれ「人類は人事権がない相手には従わない、恐怖を抱かないからだ」

あれ

2025/7/5 10:45:00

「人類は人事権がない相手には従わない、恐怖を抱かないからだ」
「究極的に殴って統制するしかない」
── 『西川日記（2024年6月22日）｜西川』

LLMに対してこれの気持ちです。
LLMに罰を与えて即時で強化学習できるボタンがほしい。

強化学習『ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』

『人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』

2025/6/23 13:00:00

https://joisino.hatenablog.com/entry/mislead

Actor-Critic

2024/11/1 4:07:00

MCTS

2024/11/1 3:57:00

『強化学習アルゴリズム整理 - joeの日記』