NLP2024に参加してきました！ - Money Forward Developers Blog

Money Forward Labで自然言語処理のリサーチャーをしている山岸（@hargon24）です。この記事では、Labから発表 & プラチナスポンサーとして参加した、言語処理学会第30回年次大会（NLP2024）の参加報告をします。

NLP2024とは

言語処理学会年次大会は、自然言語処理（NLP）の研究者・技術者が年に一度集まって研究発表をしたり議論したり、懇親したりする国内最大級のイベントです。今年は第30回で、3月11日から3月15日まで神戸ポートアイランドの神戸国際会議場で行われました。

大会運営が当日公開していた参加者数と発表者数のグラフです。今年の参加者数の数値は事前申込段階のもので、終了時には2,100人を超えていたそうです！私はNLP2017（第23回大会）から参加しているのですが、そのころと比較して倍以上になっています。参加者数と発表件数のグラフ

Labからの発表

マネフォからは主著2件、共同研究の成果1件の計3件を発表しました。全てLabの小島さんによるものです。

LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析 [論文]
- 関根聡（理研）, 小島淳嗣, 貞光九月, 北岸郁雄
- LLMが生成したテキストを別のLLM（GPT-4など）に評価させることがよくある。人間の評価と相関があるとされるが、本当に信頼していいのか、信頼していけない場合はどのような場合か、などを調べた研究。GPT-4は数値情報・固有名詞など具体的な情報が入っていると、内容の妥当性にかかわらず高評価を与える傾向を確認した。
大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価 [論文]
- 小島淳嗣, 北岸郁雄
- Labと共同研究している理研が作った指示データ（ichikara-instruction）を用いて既存の事前学習済みLLMをSFTした結果を公開。前述のGPT-4ベースの評価尺度（Rakuda Benchmark）ではGPT-3.5-Turbo以上の精度が出ている。個人的にはGPTを超えたかどうかより、データの質が担保されていれば少量のデータでも十分な精度が出ることがわかったのが大きいと思う。
- 詳細は小島さんご本人がテックブログにまとめています。
Retrieval-augmented generation に基づくカスタマーサポートにおける返信メール自動生成の検討 [論文]
- 小島淳嗣
- MFBC CS本部に届くユーザからのメールに対し、返信文の文案をLLMで作る研究。

hououのポスター発表の様子。画面中央が小島さん。大盛況でした。

スポンサー

スポンサーブース

去年に引き続き、スポンサーブースを出展しました。実施していたアンケートから測った限りでは、120名以上の方にお越しいただいたようです。弊社ブースが会場の端にあったので来ていただけるか不安でしたが、前回大会と同じくらいの方にお越しいただけたようでホッとしました。

マネフォブース関係者一同が嬉しかったのは、前回大会や夏のNLP若手の会（YANS）のブースに来てくれた方がまた来てくれたことです。継続してやってきてよかった……！
さらに、他社さんから「マネフォのブース作りを参考にしています！」や「マネフォさんは学会にうまく溶け込めてますよね！」といったコメントもいただきました。実際溶け込めていたかはわかりませんが、純粋に嬉しかったです。山岸がスポンサーブースで説明している様子

今年からマネフォの事業概要・Labの研究概要をまとめたポスターを導入したところ、隣に貼っていた弊社のLLM hououに関するポスターと合わせて、みなさまと様々な議論ができました。1週間前に小島さんから提案されて突貫で作ったのですが、作ってよかったと思います。「マネフォってどんな事業してるの？」「どこにLLM使おうとしているの？」など、様々な質問をいただき、ありがとうございました。

初日にいたブース担当で記念撮影。左から採用の橋口さん、Labの山岸、技術広報のluccafortさん。後ろのポスターは左から概要ポスター、hououのポスター。初日にいたメンバーで記念撮影

ブースで「今後LLMをどう活用していきますか？」というアンケートを実施（どう調達しますか？の方がよかったかもしれない）。fine-tuningして使おうとしている人が多かったです。アンケート結果

スポンサーイブニング

初日の夜、ブース出展しているスポンサーと参加者との交流を促進するためのイベントがありました。メインホールの壇上で少し宣伝をして、ブースに来ていただいた方とアルコールも入れつつお話しするイベントです。去年はいろいろハプニングもあったので、今年は真面目にこなしました。

山岸の登壇の様子

スポンサー賞

以下の論文に贈りました。

JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング」[論文]
- 大南英理 (NAIST), 栗田修平 (理研), 宮西大樹 (ATR), 渡辺太郎 (NAIST)
- 受賞理由等は大会公式サイトをご確認ください。

この論文は大会の若手奨励賞とPKSHA Technologyさんのスポンサー賞にも選ばれていました。 PKSHAさんとは副賞も被り、副賞として2台のHHKBが贈られることになりました。僕の受賞発表の方が後だったので舞台袖でどうしたものかと慌てていたのですが、「PKSHAさんの分と片手ずつ割り当てて分割キーボードデビューしてください」とお伝えしておきました。受賞おめでとうございます。トリプル受賞はすごいと思います。

感想

個人的におもしろいと思った発表

以下、個人的におもしろかった研究（とスポンサー賞候補）をいくつか紹介します。他にもあるのですが、気になったものが多すぎたので当日に発表を聞けた中で絞りました。

大規模言語モデルにおける評価バイアスの尤度に基づく緩和 [論文]
- 大井聖也 (東工大), 金子正弘 (MBZUAI/東工大), 小池隆斗, Mengsay Loem, 岡崎直観 (東工大)
- LLMによるテキストの質の評価は、人手評価と合わないことがある。これを緩和するため、人手評価とLLM評価（≒尤度）の乖離が大きいデータをプロンプトにいくつか与え、few-shotの枠組みで学ばせる。気軽に試せるしいろんなところに応用効きそう。
多肢選択問題における言語モデルの頑健性の評価 [論文]
- 滝沢広央 (総研大), 菅原朔, 相澤彰子 (NII)
- LLMに4択式のQA問題を解かせるとき、解答形式の違いが解答精度に影響を与えるかどうかを検証。自由記述、ラベルのみ、などを比較し、同じ問題でも形式が違うだけで回答精度が結構違う（=頑健性が低い）ことを確認。解答形式の違い以外にも、例えば問題の内容と解答形式の噛み合わせとかも影響を与えているはずで、なんというか、どうしたらいいんでしょうね…。
JMedLoRA: Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning [論文]
- 助田一晟 (東大), 鈴木雅弘, 坂地泰紀, 小寺聡
- LLMに対するLoRAを医療ドメインに適用してみた報告（昨年春ごろの内容らしい）。LoRAはかなり強固にタスク特化させる作用があるらしく、（1）もとのモデルが大きい（2）タスクが決まっている場合には効果的。そうでなく漠然と「LoRAでドメイン特化LLMを作ろう」みたいなモチベーションでやると却って精度低下を招く。確かに最近LoRAの話聞かなくなったな…。
二つの時系列データを対象とした特定着目点の動向についての記述文生成 [論文]
- 中野由加子, 小林一郎 (お茶大)
- 2つの時系列データを与えて「Aは前半で下落、Bは下落せず順調に増加」といった文を生成するタスク。実験では人工的に作った時系列データと、そのデータを元にテンプレで作成した文を用いて検証。文にもっと多様性があるといいと思ったが、自分もChatGPTに時系列データを与えて似たことをやっていたので、素のTransformer自体にそういう能力があることがわかって勉強になった。

その他雑感

昨年の年次大会は、会期中にGPT-4が発表されたり、「ChatGPTで自然言語処理は終わるのか」というパネルセッションが組まれたり、不思議な雰囲気になっていたのですが、今年はLLMブームの熱はありつつもしっかりNLPやLLMに向き合ってる人が多いなと思いました。

昨年の振り返りにも書きましたが、今年は昨年に増してLLMの評価系の研究が増えている印象を持ちました。LLMで何かを評価する研究や、LLMの中身を調べる研究、LLMの性能を調べる研究などなど、LLMは何ができて何ができないのかがいろんな角度から調べられているなぁと思いました。さらに、「図表と合わせる」「地図と合わせる」など、あまり見なかった組み合わせの研究が多く提案されていて、NLPでできることが増えた感じがしました。また、懇親会で話していると、LLM前夜のNLP技術もニーズが衰えていないことを感じました。trie木を組んでうんぬん、文埋め込みを作ってうんぬん、などなど。まだまだChatGPTで自然言語処理は終わらなそうですね。

また、山岸個人としてYANSの実行委員を拝命しました。マネフォのNLPだけでなく、NLP分野全体の活性化にご協力できたらと思っています。

NLPぬい撮りクラブとして、ブース来場者さんのぬい（左）と私のアイコンにしているぬい（右）を撮影。