t_wの輪郭

学習強化Reinforcement LearningRL
『デジタルゲームにおける強化学習の実践的活用』生成AIモデルは少ない事前学習で性能向上が可能になってきているあれ『人間を騙してサボるAIたち - ジョイジョイジョイ』Actor-CriticMCTSPolicy GradientDQN『強化学習アルゴリズム整理 - joeの日記』OpenAI Gym強化学習するUIRLSlimebot Volleyballgitのdiffでコード生成AIを強化学習DPOあれあれ退屈嫌いAIオフライン強化学習Q学習

あれ

2025/7/5 10:45:00

「人類は人事権がない相手には従わない、恐怖を抱かないからだ」
「究極的に殴って統制するしかない」

LLMに対してこれの気持ちです。
LLMに罰を与えて即時で強化学習できるボタンがほしい。

MCTS

2024/11/1 3:57:00