Money Forward Developers Blog

株式会社マネーフォワード公式開発者向けブログです。技術や開発手法、イベント登壇などを発信します。サービスに関するご質問は、各サービス窓口までご連絡ください。

20230215130734

YANS2023に「機械学習モデルを用いた構造化文書からの情報抽出」で発表しました!

こんにちは、CTO室AI推進部のこたろうです。

今回は、8/30(水) ~ 8/31(木)の二日間を通して開催されたNLP若手の会(YANS)第18回シンポジウム(2023)に参加したのでその報告です!

Money Forward CTO室AI推進部からは私と長期インターンの満石さん、Money Forward Labからは山岸さんが発表を行いました。

発表について

Money Forwardからは3名がポスター発表を行いました。以下が発表題目と著者です(発表順となっています)。

  • [S1-P07] text embeddingを用いたデータ作成支援の検討, 満石風斗, 安立健人, 狩野芳伸 (静大)

  • [S4-P10] 機械学習モデルを用いた構造化文書からの情報抽出, 竹下虎太朗, 安立健人, 狩野芳伸 (静大)

  • [S5-P09] 財務諸表と仕訳データを用いた増減要因の説明文生成の初期検討, 山岸駿秀, 貞光九月, 北岸郁雄

私は「機械学習モデルを用いた構造化文書からの情報抽出」というタイトルで、英語レシートからの情報抽出に関する検討について発表を行いました。

見に来てくださった方々と様々な議論ができました

レシートなど会計書類から「日付は〇〇」「銀行名は〇〇」といった情報を抽出するには、OCR(画像中の文字をテキストデータに変換する技術)処理を行い出力されたテキストから機械学習モデルが情報抽出する従来手法があります。しかしOCRは書類のレイアウト情報を完全に取り込むのが困難であると言えます。そこで最近では、画像から直接情報抽出を行うモデルが登場しており、その代表的なモデルの1つにDonutがあります。こういったモデルならば、人間と同様に画像から書類のレイアウト情報を理解し情報抽出を行えると考え、今回の発表では従来手法とDonutの精度を比較しました。Donutは、従来手法より精度がよく、情報抽出の際に書類のレイアウト情報を意識している可能性も示唆できました。今後は英語ではなく日本語の書類について検討を進めていこうと考えております。

検討の段階から、「モデルがレイアウト情報を理解している」と示唆するにはどうしたらよいか悩み、今回の発表では「モデルが画像中で注目している箇所をヒートマップで示す」ことにしました。ただこれだけでは、モデルが完全にレイアウト情報を理解していることを示す材料として足りないと思いますし、今後検討を進めていきたいと考えている難しい部分でした。

今回は、私にとって4回目のポスター発表でしたが、会場での対面実施は久しぶりだったので緊張していました。しかし他の時間での聴講で、参加している皆様のリスペクトのある質問や熱心な議論の様子を見ていたことから、不安はありませんでした。

発表には学生の方や業務でNLPに取り組んでいらっしゃる企業の方が多くいらっしゃいました。OCRツールの比較、モデルのEncoder・Decoderを他のものに置き換えるとどうなるのか、モデルがレイアウト情報を理解するにはどういった工夫が必要か、など多くの議論や今後のアイデアにつながるアドバイスをいただき、非常に有益な時間となりました。

個人的に興味を持った発表について

自身の発表時間以外は他の方のポスター発表を拝見させていただきました。個人的に興味を持った、かつ自身の今回の研究内容と共通している部分があると感じた発表を紹介させていただきます。

[S3-P11] 有価証券報告書のPDFに含まれる表を対象にした構造解析の試み 佐藤栄作 (小樽商大), 木村泰知 (小樽商大)

有価証券報告書のPDFに含まれる表からの情報抽出をChatGPTで行う試みを発表なさっていました。

表からの情報抽出において、単純なOCRでは項目同士の親子関係や位置関係が読み取るのが困難であると言えます。そこでChatGPTによる情報抽出を行うと、項目名とその値の読み取りにおいて正解率のマクロ平均が81.3%であると実験結果から導出しており、モデルチューニングなしでこの精度は素晴らしいと感じました。また、インデントによる視覚的な項目の親子関係もChatGPTは78.4%の正解率で読み取れている点も驚きました。 私の今回の発表で扱っていたレシートなど会計書類にも表が含まれるため、有価証券報告書以外にどれほどの表のパターンを読み取れるのか気になりました。また、今後ChatGPT以外のモデルも比較検討するとおっしゃっていたので、より良い表の読み取り手法が提案されることに期待しています。

[S3-P18] 説明可能なチャートQAに向けた検討 木村昴 (東北大), 田中涼太 (東北大/NTT), 坂口慶祐 (東北大/理研)

QAに対する機械学習モデルの回答について、そこに至るまでの説明文に加え視覚情報も含めたいという検討を発表なさっていました。

確かに、回答に至るまでの考えを、人間のように画像を指差しながら説明してもらう感覚で再現できるならば今までのチャートQAよりも何倍も理解しやすくなると感じました。画像中のモデルの参照領域をヒートマップで表現する関連研究と、今回の検討における提案手法を紹介なさっていたので、モデルが画像のどんな部分に注目しているのか、その注目箇所をどう解釈すれば良いか議論することができました。

スポンサーブースについて

Money Forwardはシルバースポンサーとしてスポンサーブースを出展し、70名以上の方にお越しいただきました。ブースではアンケートや自社のNLP利活用についてご紹介を行いました。

1日目 左からあちゃさん、私、満石さん、山岸さん、安立さん

2日目 左から川上さん、満石さん、山岸さん、私、安立さん

「Money Forwardに研究機関(Money Forward Lab)や、AI推進部があるのを知っていましたか?」というアンケートではNoがYesよりも若干上回った結果になりましたが、認知度は少しずつ上がってきている印象があります。研究活動や発表、このような学会へのスポンサー出展を通じてより認知が広がることを期待しております。

認知度のアンケート 存在を知ってくださっている方も増えてきています

実は、社内でブース準備をしているときに、手先が不器用な発表者2名で悪戦苦闘していました。

我々では時間がかかっていた準備を、今回の出展を手伝ってくださったあちゃさんがあっという間に片付けていたところを見て実力の差を感じました...。

悪戦苦闘中...

まとめ

私はNLP系の学会で発表・聴講参加するのは初めてだったので緊張していましたが、新規参入者を迎えてくれる温かい会場の雰囲気のおかげで、リラックスしてしっかりと議論ができました。発表を見にきてくださった皆様、運営の皆様ありがとうございました。次回のNLP年次大会や来年のYANSに参加できるよう、研究活動を続けていきます。