Breakthrough in Language Model Training: Direct Preference Optimization Transforms RLHF

Building large language models (LLMs) requires vast amounts of training data and sophisticated techniques. Traditionally, LLMs are trained on massive text datasets, predicting each word before it appears. While this approach provides LLMs with a statistical understanding of language, itだけでは十分ではありません。人間の期待に応えるようにLLMを訓練するには、何か別のものが必要です。

このようなモデルをユーザーの期待に沿わせる一つの方法は、人間のフィードバックからの強化学習（RLHF）です。アメリカのスタートアップであるOpenAIは、2022年3月に公開されたプレプリントでこの手法を紹介しました。これは、8か月後にリリースされたChatGPTのレシピの主要な要素でした。

RLHFは通常、3つのステップで行われます。まず、人間のボランティアが、2つの潜在的なLLM応答のどちらが特定のプロンプトに適しているかを判断します。これは数千回繰り返されます。このデータセットは、実質的に人間に代わるために、2つ目のLLMを訓練するために使用されます。人間が望む応答には高いスコアを割り当て、他のすべてには低いスコアを割り当てるように設計されたこの報酬モデルは、元のLLMを訓練するために使用されます。最後に、強化学習と呼ばれる機械学習技術が元のLLMのノブとレバーを調整して、報酬を得る行動を強化します。

このRLHFの方法論はかなり複雑で、2つの別々のLLMを使用すると時間とお金がかかり、強化学習に使用されるアルゴリズムは、スタンフォード大学のラファエル・ラファイロフ氏の言葉を借りると「かなり面倒」なものになっています。これは、OpenAI、Googleとそのライバルを除いて、誰もがその可能性を十分に活用できていないことを意味していました。

同じ結果をはるかに少ない労力で達成できることが判明しました。ラファイロフ博士とその同僚であるアーチット・シャルマ氏とエリック・ミッチェル氏は、2023年12月のAIカンファレンスであるNeurIPSでこの代替案を発表しました。彼らの手法であるDirect Preference Optimization（DPO）は、満足のいく数学的なトリックに依存しています。このトリックは、すべての報酬モデルには完全なスコアを獲得する特定の理論的LLMがあり、同様にすべてのLLMはそれに素晴らしい評価を与えるだろう理論的報酬モデルがあるという観察に基づいています。（より現実的には、すべてのズボンには完璧にフィットする理論上の人物がおり、すべての人には最もフィットする理論上のズボンがあります。）各LLMが暗黙の報酬モデルを隠しているというこの観察により、研究者はこのモデルを直接いじることができました。従来の体制では、LLMはデータから学習した報酬モデルから学習しました。現在、LLMはデータから直接学習できます。

著者によると、中間者を排除することで、DPOはRLHFよりも3〜6倍効率が向上し、テキスト要約などのタスクでより優れたパフォーマンスを発揮できるようになります。この使いやすさにより、小規模企業でもアライメントの問題に取り組むことができる、とシャルマ博士は述べています。1年前、GoogleのGeminiやOpenAIのGPT-4など、世界をリードするモデルだけがRLHFの使用を余裕でまかなうことができました。しかし、3月12日の時点で、業界のリーダーボードでトップ10入りしたLLMの8つがDPOを採用しました。OpenAIに対抗しようとするフランスのスタートアップであるHugging Faceもそれを利用しています。ソーシャルメディアの巨人であるMetaは、それを自社製のLLMに統合しました。さらなる改善が確実に行われます。一つには、大規模なAI研究所は2022年に詳細の公開を中止して以来、独自のアルゴリズムを改善しているというのがコンセンサスビューです。しかし、人間が望み期待することをLLMにさせるという問題は、まだやり遂げられていません。結局のところ、人間同士でさえ時々苦労することがあります。

Post Views: 8

Tags:

AI Alignment Direct Preference Optimization (DPO)Large Language Models (LLMs)Natural Language Processing (NLP)Reinforcement Learning from Human Feedback (RLHF)

Breakthrough in Language Model Training: Direct Preference Optimization Transforms RLHF

Leave a Comment Cancel Reply

Sunstone Hotel Investors to Release Thir...

New Zealand Unveils ‘Stargazing...

American Airlines Steps Up to Aid Hurric...

Hideo Kojima Unveils New Details for ...

Related Posts

Leave a Comment Cancel Reply