Money Forward Labで自然言語処理(NLP)のリサーチャーをしている山岸(@hargon24)です。 この記事では、2024年度の第19回言語処理若手シンポジウム(YANS2024)の参加報告をします。Labはゴールドスポンサーとして参加し、山岸個人はLabのスポンサーブースのスタッフとしてだけでなく、YANSの運営委員としても参加しました。
YANS2024とは
- 学会名: 第19回言語処理若手シンポジウム(YANS2024)
- 会期: 2024年9月4日 - 6日(ハッカソン1日 + 本会議2日)
- 会場: 大阪・梅田スカイビル
- ページ: https://yans.anlp.jp/entry/yans2024
論文になる前の本当に萌芽的な研究を発表して、コメントもらったり意見交換したりするためのシンポジウムです。最近は正式な学会のような雰囲気を帯びつつありますが、若手(〜35歳前後?)が集まってワイワイする、かなりゆるい雰囲気が残った会です。
Labのスポンサー活動
今回は当社からの発表はなく、ゴールドスポンサーとして参加しました。 ブースで実施していたアンケートの回答数から見ると、60名以上の方にお越しいただけたようです。 弊社ブースが会場の端にあったので来ていただけるか不安でしたが、YANS参加者の2割以上の方に立ち寄っていただけました。ブースでは当社のNLPや機械学習を使ったサービスについてお話ししました。「どんな事業してるの?」「どこにLLM使おうとしているの?」「研究だけをしているの?」など、様々な質問をいただき、有意義な時間を過ごせました。ありがとうございました。
スポンサーブースはこんな形でした。向かって左は技術広報のluccafortさん、右はYANS委員のTシャツを着た山岸。
ブースではアンケートを実施しました。当社が大事にしているCultureの中で、参加者のみなさんが何にこだわって研究や仕事をされているのか、という質問をしました。研究はFunが大事なのかもしれませんね。
スポンサー賞
以下の発表に対して賞を贈りました。
- [S2-P10] 人の言語を模倣するのに必要十分な言語モデルの大きさはどれだけか
- 山本 悠士 (東京理科大), 上田 亮 (東大), 唐木田 亮 (産総研), 横井 祥 (東北大/理研)
言語モデルの内部で使われる埋め込み空間の次元は数百〜数千次元から選択することが多いですが(例: BERT-baseでは768次元)、言語モデルが高い流暢性や常識的知識などを獲得するためにどれくらいの次元(=表現力)を持てばよいのかは、はっきりとしていません。既存の研究では、固有次元という尺度を測定することで、現在使われている次元よりもはるかに少ない次元で表現できる可能性を示しているそうです。本研究では、言語の意味的・統語的な特徴が潰されたコーパスを用いてBERTの事前学習を行い、各特徴の獲得に必要な次元を測定する実験をしたとのことです。
当社の事業に直接関係がある研究ではありませんが、現在の大規模言語モデル(LLM)のサイズを大きく削減できる可能性を示唆するものであり、大変有益な知見であることを評価しました。また、一つ一つ実験を繰り返し、つぶさに結果を比較している過程はこの研究に限らず大変評価できると思います。
副賞にはHHKB Professional Type-S 雪(US配列)を贈ります。おめでとうございます。
スポンサー賞の候補
スポンサー賞の選定は、プログラム公開後にタイトルだけを見て候補を出し、事前に公開されていたポスターと現地での発表内容を確認して行いました。以下は候補に挙がっていた発表の一部です。
- [S3-P33] 小規模で高性能なLLMのための高品質事前学習Webコーパスの構築
- 服部 翔 (東工大/産総研), 水木 栄 (東工大/産総研), 藤井 一喜 (東工大/産総研), 中村 泰士 (東工大/産総研), 大井 聖也 (東工大/産総研), Ma Youmi (東工大), 前田 航希 (東工大), 塩谷 泰平 (東工大), 齋藤 幸史郎 (東工大), 岡本 拓己 (東工大), 石田 茂樹 (東工大), 横田 理央 (東工大/産総研), 高村 大也 (産総研), 岡崎 直観 (東工大/産総研)
- 概要: LLMの学習用コーパスのフィルタリングは、必要性がよくわからないルールを含んだheuristicsに依存している。本研究ではMLベースで真面目な文書を残すフィルタと、heuristicsルールのうち「複数回同じ5~10-gramが出現する文書を削除」と「カタカナ・非日本語文字の割合が高い文書を削除」のルールを外したフィルタで整理したコーパスを使いLLMを学習させた。多くのベンチマークで改善を確認。
- 感想: こちらも緻密に実験を重ねていて、とてもいい研究だと思いました。なぜか算術推論の結果だけは悪くなっているようで、数学系の文書が今回の変更と噛み合っていないように見えるところが個人的には興味深かったです。
- [S4-P21] LLMはなぜ算数が苦手なのか? Transformerの外挿能力に関する分析
- 進藤 稜真 (北大), 竹下 昌志 (北大), ジェプカ ラファウ (北大), 伊藤 敏彦 (北大)
- 概要:
10000+12345=
といった文字列を与えて加算結果を生成させるタスクを学習させたニューラルネットは、学習に用いた数値の範囲を超えて推論させる(=外挿させる)と途端に解答精度が低下するらしい。本研究では、LLMで多用されるIn-context Learning(ICL)での外挿能力を調べ、ICLでは全く外挿ができないことを実験的に示した。 - 感想: 事前学習に入っていないデータはICLでもどうにもならないことは感覚的には持っていましたが、それがはっきり示されたいい研究だと思いました。他社さんのスポンサー賞やYANSの奨励賞にも選ばれていて、多数の受賞も納得です。
- [S5-P06] Text-to-SQLのためのテーブルデータを用いたカラムフィルタリング
- 野口 輝 (東京理科大), 松崎 拓也 (東京理科大), 藤原 誠 (東京理科大)
- 概要: カラム名を手がかりに探索すると、関連しそうなカラムには別のテーブルのキーしか入ってないケースがあり、微妙にうまくいかない(例: car_makers.country に国名コードしかなく、車メーカーの所在国名を得るにはcountry.nameを見る必要がある)。そこで各カラムの内容をGPTで説明させ、そのコメントのベクトルを使って必要なカラムを探索する。
- 感想: 現状の実験ではまだ精度改善が見られていないとのことでしたが、課題設定がとても実用的だなと思いました。説明コメントのベクトルの入れ方に工夫の余地がありそうな気がします。
感想
YANS委員として
YANS委員では企画担当で、主に初日のハッカソンや招待ポスター発表の企画を担当しました。
ハッカソンは「OpenAI APIを用いた言語芸術生成」を大きなテーマとして、大喜利生成と川柳生成の2タスクを提供しました。私は大喜利担当として、使うデータのクローリングやデータ整備などを担当しました。使ったデータが純粋に面白く、準備の段階から楽しみながら作業できました。参加者のみなさんには4時間で仕上げてもらうことになりましたが、楽しんでいただけていたのなら嬉しいです。整備したデータはYANSの公式開催報告などで共有されると思いますので、ぜひ使ってみてください。
また、会期を通して大きな問題もなく、スムーズに進行できました。他の委員のみなさんによる準備の賜物だと思いますし、参加者のみなさまのご協力の結果でもあると思います。正直ホッとしています。
山岸個人としては、スポンサーとして壇上に上がるときはマネーフォワードのTシャツを着て、そうでないときはYANS委員のTシャツを着る、という方針で行動していました。かなり大変だったのですが、同時によい思い出になりました。
ハッカソン参加者に配った551に囲まれている山岸。120個ありました。
招待ポスター発表の産総研・石垣先生のブースにあった、レースゲームのリアルタイム実況生成のデモを楽しむ技術広報luccafortさん。企画に関わった招待ポスターはどの発表も盛況で、企画した甲斐があったと思いました。
その他雑感
今回のYANSは参加者・発表数ともに過去最多で、とても規模が大きいイベントとなりましたが、YANSのゆるさが失われてないのは偉業だと感じます。私は来年も委員としてご協力しますし、Money Forward Labとしても継続的に参加できたらと思っています。よろしくお願いいたします。
Money Forward Labでは、一緒にお金のメカニズムを解き明かすための研究をしてくれる仲間を募集しています。
2026年度新卒採用のエントリーが開始しました!
2024年10月24日に、東京本社にて26卒の研究開発職の志望者向けイベントを実施します。私も参加予定です。
詳細は以下のconnpassに記載しました。こちらをご確認いただいて、connpassにあるフォームからご応募ください。
- 2024年10月24日 オフライン交流会 at 東京本社
- 本選考エントリー前の方も参加できますので、お気軽にお越しください
- 2026年新卒採用 研究開発職 本選考エントリー
また、インターン希望の学生さんや社会人の方もカジュアル面談などが可能ですので、お気軽にご連絡ください。