こんにちは、SB Intuitions株式会社の高山隼矢, 大萩雅也, 山崎天, 泉健太, Liu Lianboです。9月18-20日に京都で開催された、対話システム・談話研究に関する代表的な国際会議であるSIGDIAL2024にゴールドスポンサーとして協賛・参加いたしました。
本記事ではSIGDIALに参加して感じたことや気になった論文について紹介いたします。
目次
SIGDIAL2024の概要
SIGDIAL (Meeting of the Special Interest Group on Discourse and Dialogue) は自然言語処理・計算言語学・音声処理などの情報科学的なアプローチで対話・談話を扱う研究に焦点を当てた国際会議です。今年のSIGDIALは京都大学で9月18日-20日の3日間に渡って開催され、本会議の採択論文数は65件(採択率: 41.7%)でした。本会議がシングルトラック形式で開催されるのが特徴です。また、本会議前の9月16, 17日には、対話分野の若手研究者のためのワークショップであるYRRSDS 2024や、サイバネティックアバターのための音声対話に関するワークショップであるSDS4CAも開催されました。
参加記
今年のSIGDIALは京都大学の吉田キャンパスでの開催でした。写真に写っている時計台は1925年に建てられたもので、京大のシンボル的な存在として知られています。現在は「百周年時計台記念館」として、京大から社会へ情報発信を行う場としての役割を果たしています。実際の学会会場はこの写真には写っていませんが、威風堂々とした時計台・ちょうど良い位置に置かれたSIGDIAL2024の看板・あまりの晴天っぷりの3点が相まって大変良い写真が撮れたので載せておきます。
本会議の3日間を通して、対話・談話を扱うさまざまな研究がオーラル・ポスター・デモセッションで発表されました。SIGDIALはより幅広いトピックを扱う大規模な会議(ACL, EMNLP, AAAIなど)とは異なり、本会議がシングルトラック形式で開催されます。シングルトラックとはある時間帯に一つのセッションしか開催されない形式のことで、会場に居さえすれば全てのセッションに参加できるという利点があります。一口に「対話システム」と言ってもその応用先や用いる技術は多岐に渡るため、例えば自然言語処理の会議などでは対話関連の研究発表が同時に複数のセッションに散らばっているのが常です。また、対話研究者は自然言語処理に限らず画像処理, 音声処理, ロボティクス, HCIなど様々な分野に点在しています。そのため、SIGDIALのように「対話・談話」という括りの中で様々な背景の研究に触れられる機会は、対話システム研究者・開発者にとって非常に貴重です。私(高山)はバックグラウンドがかなり自然言語処理寄りですので、あまり明るくない分野の、しかし課題意識やモチベーションを緩やかに共有している人々と議論ができたことは非常に刺激的な体験になりました。
本会議では通常の研究発表のほかに、基調講演・パネルディスカッション・スポンサーセッションなども開催されました。基調講演ではコロンビア大のZhou Yu先生によるタスク特化型のAIエージェント構築に関するお話と、京大の井上昂治先生による対話システムにおける非言語的振る舞い(あいづち、ターンテイキング、笑いなど)に関する研究のお話がありました。録画がこちらで公開されていますので、興味を持たれた方はぜひご覧ください。スポンサーセッションでは山崎が登壇し、弊社のLLM構築・対話システム研究に関する取り組みの紹介を行いました。なぜ日本語に特化したLLMが必要なのかを「三角食べ」を題材に説明し、聴衆の方々からご好評をいただきました。
本会議2日目には平安神宮会館にてバンケットが催されました。久々に会う方々・初めましての方々と対話研究に関する議論やざっくばらんな雑談を交わすことができ、非常に楽しかったです。綺麗な庭園を見ながらおいしい料理をいただけて大変満足でした。


私(高山)にとっては久々の国際会議参加で、かつSIGDIALに関しては初参加ということで、大変刺激的な3日間でした。来年もぜひ参加したいです。
気になった発表
Toximatics: Towards Understanding Toxicity in Real-Life Social Situations
対話モデルの応答の安全性確保の観点から、毒性(toxicity)のある応答の抑制や、toxicityの高いユーザ発話の検知などの取り組みが多くなされています。この研究では、ある発話がtoxicかどうかは実際にはその発話がなされた文脈によっても変わりうることを指摘し、(文脈, 発話, toxicity) の組からなるデータセットを半自動で構築しています。実験では、GPT-4のように広範なタスクで高い性能を誇るLLMであっても、文脈に応じたtoxicity判定においては課題が残ることを示しています。近年では "Exaggerated Safety" などのキーワードで、LLM対話モデルがユーザの要求を過剰にtoxicなものだと判定して拒否してしまう課題が取り沙汰されていますが、その解決のためには本研究のようにtoxicityの判断が難しい事例の収集が不可欠だと感じます。「文脈から推察される意図」や語用論的な現象に興味がある身としても心惹かれる研究でした(高山)
Self-Emotion Blended Dialogue Generation in Social Simulation Agents
LLMを活かした対話モデルはすでに対話文脈に合わせた自然な回答を返すことができるようになってきています。しかし、我々人間がその時の感情によって同じ出来事でも受け止め方が違うように、人間らしいエージェントを作る上ではその時エージェントがどういう感情を持っているかが重要な要素になってきます。こちらの論文はエージェントが日々の生活の中でどのような感情を持ちうるかをシミュレーションし、その感情を与えた場合と与えなかった場合でどのように返答が変わるかを評価しています。結果として、感情を与えた場合においてより良い対話戦略を選ぶことができるようになり、自分自身の感情を認識することの有用性が示されています。これからのエージェントは長期記憶などにも対応していく必要があり、過去の文脈の冗長さをどう圧縮していくかは一つのホットトピックかと思われます。こちらの論文が提示した「感情」というアプローチはその一つの方向性と言えるのではないでしょうか。(大萩)
DiagESC: Dialogue Synthesis for Integrating Depression Diagnosis into Emotional Support Conversation
メンタルヘルスケアのための対話システムにより適切な精神的サポートを提供するために広範な研究が行われてきましたが、既存の研究ではユーザーが専門的な医療介入を必要とするかどうかを判断し、適切なサポートを提供することができません。そこでこの研究では、ユーザーに対して感情的なサポートを行うと同時に診断のための質問を投げかけることで、うつ病の初期兆候を検知しつつ適切なサポートを行えるシステムの開発を目指し、Diagnostic Emotional Support Conversation (DESC) タスクを提案しました。DESCは、感情的サポートと診断用の質問の二つのモードを持つ応答生成と、ペルソナの生成、診断結果の生成、という三つのサブタスクを含んでおり、このタスクを達成するためにGPT-4を用いて生成した対話データセットは専門家から高い評価を得ることがわかりました。これまでメンタルヘルスのための対話システムの分野で別々に扱われてきたうつ傾向の推定と感情的なサポートのための応答生成という二つの重要なタスクを、一つのタスクに統合するとともに、高度なLLMを利用することで高い評価を得るシステムを構築できる可能性を示したことは、メンタルヘルス対話システムの医療現場での応用に近づける大きな貢献ではないでしょうか。(泉)
Improving Speech Recognition with Jargon Injection
近年、Whisperをはじめ音声認識(ASR)システムは大きな進展を遂げてきました。しかし、特定ドメインの専門用語に関しては依然として課題が残ります。従来の手法では、専門領域の音声およびテキストデータを用いてASRシステムをファインチューニングするのが一般的です。この論文では専門用語のテキストデータのみを使用して、追加のトレーニングを行わずに専門領域での性能を向上させる方法を示しています。この手法では、専門用語をTrie木構造で表現し、Whisperモデルのデコードプロセスにおいてトークン生成の確率を調整することで、専門用語への注意を強化します。実験結果から、日英両言語における領域特化データセットでWhisperの性能を顕著に向上させることが示されました。簡単な手法でありながら、ファインチューニングが不要であり、専門用語の追加や削除が迅速に行えるという大きな利点を持っています。専門領域の音声認識において、効率的な性能向上を実現する有望なアプローチと言えるでしょう。(Liu)
最後に
SIGDIALは「対話・談話」という限られた領域に関する会議でありながら、対話研究そのものの応用先・扱う技術の幅広さから、非常に多様な研究テーマに触れられる貴重な機会でした。SB Intuitionsは日本の文化・習慣を理解したLLMの構築に加え、その応用としての対話システム研究や開発にも力を入れていく所存ですので、ぜひご注目ください。