Money Forward Developers Blog

株式会社マネーフォワード公式開発者向けブログです。技術や開発手法、イベント登壇などを発信します。サービスに関するご質問は、各サービス窓口までご連絡ください。

20230215130734

houou (鳳凰):理研 ichikara-instruction データセットを用いて学習された大規模言語モデル

Posted by Atsuhi Kojima, Researcher, Money Forward Lab.

この記事では自然言語処理に興味がある、あるいは研究開発に携わっているエンジニアや学生の方に向けて、マネーフォワードの研究機関である Money Forward Lab が取り組んでいる Large Langugage Model (LLM) の研究開発についてご紹介します。

LLM の指示追従性を向上させる学習手法として Supervised Fine-Tuning (SFT) があります。SFT モデルは、prompt と completion のペアで構成されるインストラクションデータを用意し、事前学習モデルに対して fine-tuning することで学習されます。

このようなインストラクションデータの作成は、GPT-4 などの学習済みモデルからの出力を利用する方法を除くと、人手で prompt と completion を記述する必要があり、アノテーションコストがとても高いです。そのため、日本語のインストラクションデータは、英語で作成されたインストラクションデータを日本語に翻訳することで得るアプローチが大半でした。

この問題を解決するため、Money Forward Lab では、日本語のインストラクションデータをフルスクラッチで作成するため、2023年9月より国立研究開発法人理化学研究所 革新知能統合研究センター 言語情報アクセス技術チーム(以降、「理研」)との共同研究を開始しました。

この共同研究の成果として、理研によって作成され、共同研究企業に提供されたインストラクションデータである ichikara-instruction を用いて学習された LLM をオープンソースで公開いたしました。なお、データセットは最新のものを利用しており、これには 4802 件のデータが含まれます。

このモデルは、鳳凰(houou)と命名され、Hugging Face にてLLAMA 2 licence で公開されています。 https://huggingface.co/moneyforward/houou-instruction-7b-v2

Rakuda Benchmark における houou の勝率

日本に関する40の自由形式の質問で構成される Rakuda Benchmarkを使って houou の性能を評価しました。実験では、効率的な評価のため、gpt-4 による自動評価を採用しました。

実験の結果、houou は、日本語に翻訳された dolly とOASST によってそれぞれ学習された SFT モデル性能を上回ることがわかりました。さらに、gpt-3.5-turbo-1106 との比較においても、houou は、 67.5%の質問 に対して gpt-3.5-turbo-1106 よりも優れた出力を行えることがわかりました。

他のデータセットでの評価や、人手評価に関する詳細は2024年3月に神戸にて開催される言語処理学会第30回年次大会(NLP2024)で報告いたします。

NLP2024でのマネーフォワードの発表

マネーフォワードは、言語処理学会第30回年次大会において、houou の成果に関する論文も含め、自然言語処理に関する論文を3本発表いたします!

  • 大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価,
    小島淳嗣, 北岸郁雄

  • LLMの出力結果に対する人間による評価分析と GPT-4による自動評価との比較分析.
    関根聡, 小島淳嗣, 貞光九月, 北岸郁雄
    ※ 理研との共著論文

  • Retrieval-augmented generation に基づく カスタマーサポートにおける返信メール自動生成の検討.
    小島淳嗣

また、本会議にて、マネーフォワードは、プラチナスポンサー、および冠スポンサーを務められることを大変嬉しく思います! 会議や企業ブースにて皆様とお会いできるのを楽しみにしております!

Money Forward Lab では仲間を募集中です。

中途採用

2025年度新卒採用