Posted by Atsushi Kojima and Wang Yingjie (conducted the work during his internship), Researchers, Money Forward Lab.
はじめに
近年、GPT-4などの大規模言語モデル(LLM)が注目を集めていますが、これらのモデルは必ずしも日本の金融分野に特化して学習されているわけではありません。 この課題に取り組むため、私たちは日本の金融・会計分野にアラインメントされたLLMの開発に取り組んでいます。 本ブログでは、その開発プロセスと成果について紹介します。
モデル開発のアプローチ
モデル学習のフローを以下に示します。基本モデルとして、LLAMA2 7Bに日本語テキストで継続事前学習したモデルであるrinna/youri-7bを採用し、さらに継続事前学習とsupervised fine-tuning(SFT)を実施しました。
継続事前学習には、ウェブから収集した財務報告書、決算書き起こし、会計、金融の教本などのテキストから作成した約6,600万トークンのデータセットを使用しました。SFTには、独自で作成した5,607のデータを用いました。
モデルの評価
モデルの性能評価のため、30の評価用プロンプトを用意し、会計士、簿記の資格を持つ現役の企業経営コンサルタントがモデルの出力を5段階で評価しました。また、参考までにGPT-3.5との性能比較も行いました。以下の表はスコアの平均を示しており、学習したモデルがGPT-3.5の性能を上回ることが分かりました。
モデル | スコア |
---|---|
Our model |
4.65 |
gpt3.5-turbo |
4.4 |
推論結果の例
以下に学習したモデルとGPT-3.5の出力結果の例と評価者のコメントを示します。この例では、提案モデルの出力が3点、GPT-3.5の出力が1点と評価され、提案モデルの優位性が示されました。
プロンプト:「タイトルにDBAがある小切手を入金するには?」
model | completion | 人手評価のスコア | 評価者のコメント |
---|---|---|---|
Our model |
DBAがある小切手を入金する際は、銀行口座名義と同じ個人名である必要があります。DBAを持っている場合、銀行口座の名義もそのDBA名義にしておく必要があるため、注意が必要です。銀行では、口座名義人の署名が確認できない小切手は受け付けないため、その点を考慮して手続きを行ってください。 | 3 | 「DBAがある小切手を入金する際は、銀行口座名義と同じ個人名である必要があります。」は個人名ではなく、法人名もあると思いますのでこの点が不正確かと思います。 |
gpt3.5-turbo |
DBA(Doing Business As)がタイトルに入っている小切手を入金する際は、ビジネス名(略称)とご自身の名前を両方記入して、小切手に署名してください。その後、個人の銀行口座に入金することができます。 | 1 | ビジネス名と個人名の両方を記入して署名するという指示は、一般的な銀行の手続きには当てはまらない可能性が高いです。また、DBA名が記載された小切手は、そのDBA名と一致するビジネス名の銀行口座に入金するのが一般的です。個人の銀行口座に直接入金することは、銀行によっては許可されない場合があると思います。 |
今後の展望
引き続き、学習データや採用するモデルなどを検討し、精度向上やユースケースの探索などを行います。 現在、日本の金融や会計に適しているかという観点で、GPT-4などの強力なモデルの出力の問題点を金融分野の専門家とともに分析しています。これらの知見を活かし、日本語の金融インストラクションデータの作成に取り組み、より質の高い学習データの構築を目指しています。