こんにちは、SB Intuitions株式会社の高山隼矢, 大萩雅也です。1月19-24日にアラブ首長国連邦(UAE)のアブダビで開催された、自然言語処理における代表的な国際会議の一つであるCOLING 2025にて発表を行いました。
本記事ではCOLINGに参加して感じたことや気になった論文について紹介いたします。
COLING 2025の概要
COLING (International Conference on Computational Linguistics) は、自然言語処理および計算言語学に関する国際会議であり、幅広い言語処理技術とその応用に関する研究が発表される場です。今年のCOLINGはアブダビにて1月19日から24日まで開かれ、またオンラインセッションが27, 28日に開催されました。アブダビはAIに特化した大学院大学である MBZUAI が近年開設されるなど、中東におけるAIのホットスポットとなっています。
本会議の投稿論文数は2,723本*1で、うち査読されたのは2,335本 (long paper: 1,922本, short paper: 413本)、最終的な採択論文数は760本 (long paper: 663本, short paper: 97本) でした。今回採択された論文はshort paperですが、およそ20% (in Direct submissions) という若干厳し目の採択率でした。
発表論文
Persona-Consistent Dialogue Generation via Pseudo Preference Tuning
ユーザーと対話システムが会話する上で、システムのキャラクター(ペルソナ)は重要な要素です。対話システムは自身のペルソナに一貫した応答発話を返す必要があり、例えば「猫が好き」というペルソナが与えられているのに「猫はあんまり好きじゃないです」と発話するのは望ましくありません。本研究で扱うペルソナ対話タスクでは、下図のように短い自然言語文の列挙で表されるペルソナ情報をあらかじめシステム(対話モデル)に与えます。対話モデルは自身に与えられたペルソナ情報を守りながらユーザと対話を行います。なお、ペルソナ対話モデルを訓練するためのコーパスとしては、PersonaChat (英語), JPersonaChat (日本語) などが知られています。本研究でもこの2つのコーパスを用いて実験を行います。
本研究の目的は、ペルソナ対話モデルにおける発話とペルソナの一貫性の向上です。既存研究 [1, 2] では、ペルソナと発話の間の一貫性の高さをスコアとして出力するような報酬モデルを構築し、この報酬スコアに基づいて対話モデルを強化学習するなどの方法でペルソナに対する一貫性を向上させてきました。しかし、既存手法における報酬モデルの訓練には、ペルソナと発話の間の一貫性をあらかじめ人手でアノテーションした外部データが必要です。英語向けには Dialogue-NLI [1] と呼ばれる公開データセットが存在しますが、日本語向けのものは存在しません。また、Dialogue-NLI は一般的な日常対話を対象としているため、例えば架空のトピック・キャラクターなどへの適用可能性などにも課題が残ります。そこで本研究では、このような外部データがなくともペルソナに対して一貫した生成を行うことができるチューニング手法を提案しました。
我々の手法では、LLM をチャット用途にチューニングする際によく用いられる、選好チューニング (Preference Tuning) のフレームワークを活用します。選考チューニングとは、ある入力文に対する2つの応答候補について、そのどちらの方がより好ましい応答かがアノテーションされた選好データを用意し、それを用いて LLM の出力をより選考されやすい方向に "寄せていく" ような手法です。選好データの作り方はさまざま提案されていますが、本研究ではペルソナ対話タスクに特化した擬似選好データを構築するための手法を提案しました。下図に提案手法のデータ作成方法を示します。
提案手法では、PersonaChat のような「ペルソナ情報」「対話履歴」「参照応答(正しい応答の例)」の三つ組からなるペルソナ対話コーパスを拡張し、「擬似負例(好ましくない応答)」を自動付与することで擬似選好データを構築します。具体的には、まず三つ組のうちペルソナ情報だけをコーパス内でランダムにシャッフルします。次に、ペルソナ対話コーパスで訓練したモデル(SFTモデル)を用いて、シャッフルされたペルソナ情報に基づいた応答を生成させ、これを擬似負例として扱います。最後に、擬似選好データを用いて SFT モデルに選好チューニングを施します。
「全く関係のないペルソナに基づいて生成された応答は元のペルソナの応答としては好ましくないはずである」という直感に基づいて設計したシンプルな手法ではありますが、日英両言語において、さまざまなモデルのペルソナ一貫性を向上させることができました。提案手法の詳細や実験結果についてはぜひ論文をご参照ください。
(再掲) Persona-Consistent Dialogue Generation via Pseudo Preference Tuning
参加記
冬のアブダビは日本に比べてとても温暖な気候でした。イスラム圏ということもあり特にアルコール飲料は高額で、また豚肉製品を扱う飲食店は皆無でした。ただ、大きなスーパーマーケットなどには "for non-muslims" などと書かれた豚肉・豚肉加工品専用の部屋があり、隔離された空間にずらっと豚肉製品が並ぶ光景は新鮮でした。人口に占める外国籍の住民の割合が9割近いというお国柄ゆえ、食事のレパートリーは充実しており美味しかったです。ただ、日本食に関しては料理酒・味醂などアルコールを使うものが多いためかほとんど普及しておらず、少しばかり日本の食材が懐かしくもありました。
会議の会場は最近できたばかりで、大変清潔で広々としていました。
この地域の開催ならではの特色として、アラビア語に関連したワークショップが多く興味深かったです。また、他の開催地と比較して、日本人の発表者も多めに感じました。これは MBZUAI に多くの日本人研究者が在籍していることも一因かもしれません。
6日間の開催期間中には、ポスターや口頭発表を見て回りました。自分の論文が引用されている発表 [3] を見つけた時は感慨深かったです。気になった論文に関しては次のセクションをご覧ください。
発表は本会議1日目の朝に行われ、同じく対話を研究している様々な研究者の方々と有意義な議論を行うことができました。業務時間外でも、日本人研究者たちとの交流を楽しみました。普段は接点のない異業種の方々とも話せる機会があり、刺激になりました。
また、4日目に開催されたSocial Excursionsイベントでは、砂漠でデューンバッシングを楽しんだり、豪華絢爛なモスク・大統領官邸などを観光する人もいました。このようなアクティビティは一期一会の出会いが生まれやすく、また研究内容だけではない各国のアカデミア事情、就職事情などを耳にすることができて興味深いです。
こうした国際会議に参加し、実際に研究内容に触れることで得られる刺激は非常に貴重でした。普段の業務内容に新たな実装アイデアを喚起してくれると感じます。これからも機会があればSB Intuitionsのメンバーとして積極的に論文執筆や学会参加を行っていく所存です。


気になった論文
Efficient Tool Use with Chain-of-Abstraction Reasoning
LLMの出力の信頼性を高めるための手法の一つとして、APIや計算機などの外部ツールを使いながら推論(Chain-Of-Thought)を行うことが挙げられます。しかしながら、推論が長くなると、以前ツールの使用によって得られた外部知識をLLMが忘れてしまうという問題が既存研究では存在しました。例えば計算結果が"2,300,412"のような長めの数値である場合、正確にこの値を用いて推論し続けることは難しく、推論過程のどこかで"2,300,411"や"2,300,413"になってしまうかもしれません。
この問題に対処するためにこの研究ではツールの使用によって得られた外部知識を"x1"や"y1"のような変数として出力させ、その後の推論過程でもこの変数を用いて推論し続けるようにモデルを訓練しました。最終的な推論結果はモデルの出力が終わった後に各変数の値を外部ツールを用いて取得し計算を行います。既存研究の問題に対して非常に明快な手法であり、今後の発展も期待できる研究でした。
CoPrUS: Consistency Preserving Utterance Synthesis towards more realistic benchmark dialogues
対話システムの代表的なデータセットとして、二人の人間がそれぞれユーザー、システムの役割として会話を行うWizard-Of-Oz方式で作られたMulti-WoZが挙げられます。このデータはタスク指向型対話システムの評価データなどとしてよく使われていますが、このデータに含まれる会話には現実の会話などでよく発生する会話の破綻と修復などがあまり含まれていないという問題があります。
著者はこの問題に対処するために、会話においてユーザーとシステムの間で起こりうる意思疎通の失敗パターンを3種類定義し、それぞれに対してLLMを用いて合成データを作成しました。また、その合成データを用いてモデルを訓練し評価も行いました。私も日々対話の研究に関わる中で、ユーザーが必ずしもシステムにとって理想的な発話をしてくれないということを痛感しており、非常にモチベーションに共感が持てる研究でした。
Aligning LLMs with Individual Preferences via Interaction
今回の我々の研究では LLM(対話システム)側に担わせたい性格に着目していました。一方で、ChatGPT のようなインタフェースでユーザと対話的にやり取りを行うチャット LLM においては、ユーザそれぞれの性格・選好に合わせた応答を選んで返す能力も重要です。例えばあるユーザは LLM に対して淡白で客観的な応答を好むかもしれないし、別のユーザは親身で同情的な応答を好むかもしれません。
この研究では、ユーザ側の性格を対話の中で推定しながら、その選好に合わせた応答を返すような LLM の構築方法を提案しています。端的には、「ユーザのペルソナ情報」「対話履歴」「そのユーザの選好データ(好ましい応答と好ましくない応答のペア)」からなる選好データを半自動構築し、選好チューニングによって LLM をチューニングするという手法です。推論時には、これまでの対話履歴からユーザの性格を段階的に推定し、推定した性格情報を用いて応答を生成します。筆者としても今後取り組んでいきたい分野でもあり、また手法も納得感のあるもので、興味深い研究でした。
最後に
COLINGは自然言語処理(NLP)の幅広い領域を対象とした国際会議であり、今年も多くの最新研究が発表されました。特に、アブダビという多文化的な環境で開催されたことで、世界各地の研究者が集い、異なる視点からの議論が活発に行われた点が印象的でした。SB Intuitionsは日本の文化・習慣を理解したLLMの構築に加え、その応用としての対話システム研究や開発にも力を入れていく所存ですので、ぜひご注目ください。
引用
[1] Dialogue Natural Language Inference (Welleck et al., ACL 2019)
[2] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning (Shea & Yu, EMNLP 2023)
[3] Investigating the Impact of Incremental Processing and Voice Activity Projection on Spoken Dialogue Systems (Chiba & Higashinaka, COLING 2025)
*1:Direct Submissons と ACL Rolling Review (ARR) 経由の合算の数値です。COLING2025では、直接COLINGの本会議向けに論文を投稿する Direct Submission という投稿方法と、ARR と呼ばれる NLP 分野の主要国際会議で共有する査読システムを経由する投稿方法の二種類が設けられていました。我々は Direct Submission で投稿しました。