この記事は ノバセル Advent Calender 11日目です。
ノバセル テクノロジー開発部の吉田と申します。
今回の記事では生成AIの将来を直近発表された論文をとおして論じていきたいと思います。
はじめに
生成AIが普及し、総務省の調べでは日本では個人10%弱, 企業50%弱の人々が日常的に生成AIに触れるようになりました。 生成AIのユースケースが増加している現在、その流れが今後さらに拡大していくことは容易に予想されます。 加えて大規模言語モデル(LLM)がもともと備えている検索から要約といったプロセスの自動化を基盤に、 LLMを活用してタスクを包括的に完結させる「LLMベースのエージェント」の概念が発展しています。 この進化により多種多様な情報を処理し、不確実性の高いタスクを遂行する能力が向上しており、 特定の場面では人間よりも適していると考えられる点からさらなる発展が期待されています。 そこで生成AIの裏側のアルゴリズムを理解することで、AI Agentを深く理解ヒントを得ることができると考えており、 関連基礎研究を次に概観していきたいと思います。
参考論文1: ReAct: Synergizing Reasoning and Acting in Language Models
論文リンク: ReAct: Synergizing Reasoning and Acting in Language Models
ざっくりいうと推論と行動をシームレスに連携することで相乗的に更新できるアルゴリズムを開発できましたというもの。 例えば朝出勤して今日の段取りを考えて行動しながら時間の経過や出来を確認して今後の段取りを変更するなど考えながら行動し、行動しながら行動すると言ったことは日常茶飯事であり、どちらかだけしても結果の総量は上がらないと言った経験は多いのではないか 本論文ではこれまで推論(Reasoning)だけのアルゴリズム、果ては行動(Acting)だけのアルゴリズムといった 誤りも学習してしまう脆いアルゴリズムに対して 頑健に出力できるアルゴリズム(Reasoning and ActingというわけでReActモデル)ができましたというものになります。
例を見るのが早いのでActingのみ, Reasoningのみ(CoT), Reactの順番で見てみます 用いた検証方式はFEVERを例にします。これは質問に対してWikipediaの文章が存在するかどうかに対して「支持する」「支持しない」「情報が無い」の3つに分類するベンチマークテストとなります。 結果として全て合っているのですが、ReActはThought, Action, Observationがバランスよく人の推論から結論に辿る過程とよく似ていることがわかると思います。バランスよく言語空間に対してActionとThoughtをしているので頑健に結論を出していることが直感的に気づくことができるかと思います。
参考論文2: Reflexion: Language Agents with Verbal Reinforcement Learning
論文リンク: Reflexion: Language Agents with Verbal Reinforcement Learning
次に見ていくのはReActにさらにReflextionという概念を付け加えたものになります。 以下の失敗を反省材料として次に活かしていくものになります
1. 繰り返し行動の検出 同じ行動が何度も繰り返され、同じ結果(無益な観察)が得られる場合、それを「非効率的な行動」としてフラグします。 例: エージェントが「引き出しを開ける」行動を3回繰り返してもアイテムが見つからない場合、他の探索方法を考えるべきと判断。 2. 行動の無効性 特定のアクションが無効な場合、それを記録し、将来の試行ではその行動を回避します。 3. 探索の不十分性 環境内で特定のオブジェクトや情報が見つからない場合、探索が十分でないと判断し、次回の試行で探索範囲を拡大します。
Algorithmを見ていきましょう。 Reflexionとして内部で反省材料に対して負の報酬条件を定義しており、 エージェントが"「引き出しを開ける」行動を3回繰り返してもアイテムが見つからない場合、他の探索方法を考える" のように別の行動を促す仕組みになります。 これによりReActだと失敗結果が次に活かせないことになっていましたが、本提案では次の推論-行動に活かせる仕組みになることがわかります。
AI Agentへ
上のようなアルゴリズムを知ってどんな意味があるの?と思うかもしれませんが Reflectionを使ったAI Agent例はでてきており、 このようにアルゴリズムを知ることでどこまでできることなのか?学習時間(学習の反映)はどの程度かかるものか? などエージェントの特性を理解することに役立ちます。
他にノバセルのように広告代理店業務に役立ちそうなエージェントのアイディアとしては 不確実な情報にならざるを得ない場面での情報量を多くなるような対話シミュレーションモデル の提案がなされています。このようなアイディアはクライアント様の情報が必ずしも完備じゃない場合にどのような対話をすることで 不確実性を下げることができるのかを何かしらのエントロピー計算をすることで下げるための探索シミュレーションが可能だと 想像を掻き立ててくれます。
さいごに
LLMの基礎研究を知ることで、今後必要とされるAI(LLM) Agentへの理解・開発のきっかけを与えてくれることを見てきました。 今回ご紹介した研究はごくごく一部になり、これらの研究は非常に盛り上がっています。 多くの先人の知恵を確認することで有益なAI Agentをクライアント様と創り上げていきたいと考えています。