NLP2024振り返り
神戸にて2024/03/11~15で開催された言語処理学会第30回年次大会(NLP2024)にインターン経由で参加させてもらったので,特に印象的だった発表を振り返る.
NLP2024振り返り
[C1-5] レビューの多角的な有用性判別のための分析と分類モデルの構築
自分の発表の最中だったので聴講できていなかったが,「一時的に利用する商品」と「日常的に利用する商品」でレビュー対象を分類して,それぞれで基準を設けて有用性を判別するという手法はとても面白いと思った.
一つ疑問に感じたのは,「一時的に利用する商品」と「日常的に利用する商品」の分け方.著者は「ゲームソフト」を「一時的に利用する商品」の例として挙げていて,「掃除機」を「日常的に利用する商品」の例として挙げている.そして,「一時的に利用する商品」は「楽しい」などの一時的な感情がレビューに記載されることが多いとしていて,「日常的に利用する商品」は「使いやすい」などの機能に関するレビューが記載されることが多いと主張している.しかし,「ゲーム機」を例に取ってみると,「ゲーム機」は日常的に利用する商品だが,「楽しい」や「子供が喜んでいます」などの一時的な感情がレビューに記載されることが多い気がする.なので,「一時的に利用する商品」と「日常的に利用する商品」をどう分けているのかが気になった.
[D5-3] 衛星画像の時系列変化説明に向けたあLVLMの比較
衛星画像の変化を自動検知することによって災害状況が把握できるようになるという応用を想定しており,それをLVLMに喋らせることによってさらに解釈性を上げることを目標にしている.
著者がこの研究を始めたときは公開されているLVLMは一画像までしか入力できなかったため,それに対処するための手法を2つ提案している.1つ目は「All at Once」で2つの衛生画像を結合し,結合した2画像が入力されていること旨を記載してプロンプトを与える手法で,2つ目は「Step by Step」で2つのLVLMにそれぞれ1枚ずつ衛生画像を入力しその説明文を出力させ,2つの説明文をLLMに入力して2画像の変化を出力させる手法.
複数のモデル×2手法で実験していて,比較していたが,出力トークン数がfixされていないので,情報性の比較などは正確に行えていないと思ったので,そこの部分は気になる.ただ,実際に生成例を見てみた限り,ある程度の精度で出力できているので,今後実際に運用するなども考えられると思った.
自分も時空間予測の研究を行っているので,LVLMを用いて変化を捉えるという着眼点はとても参考になった.
[D5-7] Text2Traj2Text: 大規模言語モデルを活用した段階的データ生成に基づく人物移動軌跡の言語化
人の移動にはその移動の根拠となるような「背景」存在し,例えば,ある人物が買い物するときの移動軌跡で複数の精肉店を巡回しているのであれば,この人は値段を比較しているのであろうというような「背景」が読み取れる.この論文では,移動からその「背景」を予測することを目標としている.
しかし,そのような背景を予測するモデルを構築するためには,「軌跡:背景」のペアの大規模なデータセットが必要であるが,そのようなデータはプライバシーなどの観点から実際に収集することが困難である.そこで,この論文では,Instruction Tuning済みLLMを用いて,擬似的ではあるが整合性の取れた「軌跡:背景」ペアを大量に作成し,データセットを構築している.そして,構築したデータセットでLLMにFine-Tuningを施すことで,移動軌跡から背景を言語化して出力することを実現している.
この論文に限らず今回のNLP2024の多くの発表で,LLMなどを用いて擬似的だが整合性のあるデータセットを構築し,それで訓練する手法が多いと感じた.しかも,それによって人手評価でもより良い性能を達成しているのがほとんどだった.つまり,LLMが人の感覚に近いものを習得しているということになるので,AIはここまで来たのかというKONAMI感を抱いた.
自分は時空間予測の中でも人流予測を扱っているので,この研究も何か自分の研究に活かせそうな気がした.
[A8-6] デコーダベースの事前学習済み言語モデルの多言語能力に関する分析:言語固有ニューロンの検出と制御
デコーダベースのLLMは入力に近い層と出力に近い層で言語の制御を行っているということを解明した研究.まあ,冷静に考えてみたら,入力(なんかしらの言語)を多言語モデルが把握できるように変換して,多言語モデルが分析,そして出力(なんかしらの言語)に変換して出力しているという構造になっていることは容易に想像できるので,確かにそうだなあという感じ.ただ,そういった当たり前に感じていることをきちんと解明しているのはすごいと思う.
つまり,モデルの入力層付近と出力層付近は言語的特徴を変換している層で,中間層で言語の分析などを行っていることになるので,多言語汎化性能を高めたいのであれば,中間層のみFTすれば良いということになるので,そればぜひ試してみたいポイントだなと感じた
[E9-2] 意味変化分析に向けた単語埋め込みの時系列パターン分析
単語の意味の変化(例えば「草」は植物から笑うという意味に変化したことなど)を埋め込みの変化から確認するというアプローチを取っている研究.ただ,この論文で行っている分析手法だと,単語の意味の変化というより,データとして使用している新聞記事そのものの意味の変化を捉えているだけという可能性があると思った.なので,記事全体の変化をfixした上で,単語の埋め込みの変化を可視化してみる必要があると思った.
[P11-7] kNN言語モデrは低頻度語の予測に役立つか?
kNN-LMの元論文であったレアケースの生成を助けるという結論を否定している研究.分析も丁寧に行われていて,とても面白いなと感じた.
ただ、これに関しては元論文でいうレアケースとこの論文で言っている低頻度語の意味が少し違っている気がする.元論文でいうレアケースとは、医学分野の言葉のように普通のテキストには出てこないが、ある分野の文書のときにはよく出る言葉を言ってる気がする.そうすると、医学分野のテキストがクエリとしてきたとき、データストア内の医学分野の部分に検索がかかって、目的のトークンが得られるようになる.この論文でいう低頻度語はそういう分野特有の言葉という意味ではなく、ただあまり出てこない言葉という印象を受けた.そこの部分で分けて考えるとまた何か別の結果が得られそう.まあ,わからんけど.
[P11-26] RLHFを用いた「面白い」短歌の自動生成の試み
Reinforcement Learning from Human Feedback(RLHF)を用いて,モデルをどんどん強くしていって,面白い短歌を生成させようという研究.短歌投稿サイトのいいね数が多い短歌を「面白い」短歌としている.しかし,本当に人間によってfeedbackを与えるのが難しいので,BERTを用いて短歌からいいね数を予測する短歌評価モデルを構築して,それによってfeedbackを返している.
実際に生成された短歌を著者に見せてもらったが,確かに訓練によって面白そうな短歌が生成されるようになっていると感じた.あとは,全体のモーラ数は守れているが,各句のモーラ数は守れていないようなので,各句の間に<SEP>を挟むなどの工夫をすればだいぶ良い短歌が生成できる気がする.
まとめ(感想書きなぐり)
今回が初の現地参加の学会だったが,とても楽しかったし,他の学会にも参加したいと強く感じた5日間だった.YANSもJSAIもあるし先生にお願いして参加費払ってもらえないかな.あと,改めて賞ほしいなって感じた.できればスポンサー賞でHHKB以外がほしいなあ.
あとやっぱり振り返りはすぐやらないと忘れちゃうな.今度からすぐやろう.