houou (鳳凰):理研 ichikara-instruction データセットを用いて学習された大規模言語モデル

Posted by Atsuhi Kojima, Researcher, Money Forward Lab.

この記事では自然言語処理に興味がある、あるいは研究開発に携わっているエンジニアや学生の方に向けて、マネーフォワードの研究機関である Money Forward Lab が取り組んでいる Large Langugage Model (LLM) の研究開発についてご紹介します。

LLM の指示追従性を向上させる学習手法として Supervised Fine-Tuning (SFT) があります。SFT モデルは、prompt と completion のペアで構成されるインストラクションデータを用意し、事前学習モデルに対して fine-tuning することで学習されます。

このようなインストラクションデータの作成は、GPT-4 などの学習済みモデルからの出力を利用する方法を除くと、人手で prompt と completion を記述する必要があり、アノテーションコストがとても高いです。そのため、日本語のインストラクションデータは、英語で作成されたインストラクションデータを日本語に翻訳することで得るアプローチが大半でした。

この問題を解決するため、Money Forward Lab では、日本語のインストラクションデータをフルスクラッチで作成するため、2023年9月より国立研究開発法人理化学研究所革新知能統合研究センター言語情報アクセス技術チーム（以降、「理研」）との共同研究を開始しました。

この共同研究の成果として、理研によって作成され、共同研究企業に提供されたインストラクションデータである ichikara-instruction を用いて学習された LLM をオープンソースで公開いたしました。なお、データセットは最新のものを利用しており、これには 4802 件のデータが含まれます。

このモデルは、鳳凰(houou)と命名され、Hugging Face にてLLAMA 2 licence で公開されています。 https://huggingface.co/moneyforward/houou-instruction-7b-v2

Rakuda Benchmark における houou の勝率

日本に関する40の自由形式の質問で構成される Rakuda Benchmarkを使って houou の性能を評価しました。実験では、効率的な評価のため、gpt-4 による自動評価を採用しました。

実験の結果、houou は、日本語に翻訳された dolly とOASST によってそれぞれ学習された SFT モデル性能を上回ることがわかりました。さらに、gpt-3.5-turbo-1106 との比較においても、houou は、 67.5%の質問に対して gpt-3.5-turbo-1106 よりも優れた出力を行えることがわかりました。