RLHF
概要
RLHF(Reinforcement Learning from Human Feedback:人間によるフィードバックからの強化学習)は、AIの回答の質を向上させるために、人間の評価を学習プロセスに組み込む手法です。
IT・技術的側面
AIが生成した複数の回答案に対し、人間が「好ましさ」や「正確性」に基づいて順位付けを行います。その評価データを報酬モデルとして学習させ、AIがより高い評価を得られる出力を優先的に生成するようにパラメータを調整します。
ビジネス的価値
AIの出力を人間の価値観や企業のブランドポリシーに沿ったものに調整できます。ユーザー満足度の高い応答を生成するだけでなく、不適切な発言を抑制することで、AIサービス導入に伴う倫理的リスクを低減します。