日本語性能トップクラスの LLM・Sarashina2-70B の公開

SB Intuitionsの李凌寒、高瀬翔です。

日本語に強い大規模言語モデル(LLM)Sarashina2-70Bを公開しました。 国内でフルスクラッチで学習をしたLLMの中では、大規模な70Bパラメータを持ち、日本語性能もトップクラス、かつオープンな MIT ライセンスで公開されています。 以下のHugging Face Hubのページからダウンロード可能です。

sbintuitions/sarashina2-70b

なお、本モデルは指示チューニングといった事後学習は行われておらず、対話形式での使用はできないことにご注意ください。

Sarashina2は7Bと13Bのモデルも公開されており、今回の70Bモデルと合わせて、日本語QAの性能の上ではトップクラスの性能を示しています。 各組織が公開しているLLMについて、縦軸に日本語QAの平均スコア、横軸にパラメータ数をとりプロットした図を掲載します。

7B, 13B, 70BのSarashina2を含めたLLMの性能比較

なお、Sarashina2-70Bの構築方法は、次のテックブログに記載されているものに基本的に沿ったものになります。 www.sbintuitions.co.jp

またSarashina2-7B, 13Bのモデルについての詳細な評価については次の記事をご覧ください。 www.sbintuitions.co.jp

ここでは、Sarashina2-70Bの強み・特徴について紹介いたします。

日本語QAの性能

Sarashina2-70Bは日本語を豊富に含んだコーパスで事前学習されており、日本に特有の知識に強いという特徴を持ちます。

次に挙げる日本語QAデータセットでの評価結果を掲載します。

各データセットについて正解率を算出し、70B以上のパラメータを持つモデルの結果を掲載します。 平均スコアが上位の4モデルの結果は以下のとおりです。

AI王 abc JEMHopQA NIILC JComQA JSQuAD 平均
Sarashina2-70B 89.50 89.11 82.05 53.09 94.64 91.78 83.36
Swallow-70B 87.70 84.89 80.34 58.64 95.17 90.97 82.95
Llama-3-Swallow-70B-v0.1 79.70 83.56 70.09 50.62 96.87 91.90 78.79
Japanese-StableLM-Base-Beta-70B 67.90 70.89 58.97 45.68 93.66 91.42 71.42

その他のモデルの結果を表示

AI王 abc JEMHopQA NIILC JComQA JSQuAD 平均
Llama-3-Youko-8B 62.00 73.11 50.43 46.30 95.26 90.57 69.61
Llama-3-70B 59.90 71.11 50.43 45.68 95.17 90.43 68.79
Qwen2-72B 51.00 74.67 55.56 37.65 96.78 92.53 68.03
Llama-2-70B 55.00 66.00 52.99 42.59 89.72 89.69 66.00
Stockmark-100B 68.30 50.89 41.88 40.74 39.68 52.18 48.95

Sarashina2-70Bの平均スコアが最も高い結果となっています。

Sarashina2-70Bが特に優れているのはAI王やabc-multiple-choiceといった日本語クイズです。 今回の評価で得られたLLMの出力*1のうち、Sarashina2-70Bのみが正解を出力した、AI王の問題とその答えを抜粋します。

問題:組織の内部にいながらその組織に害を及ぼす者のことを俗に「何の虫」という?

答え:獅子身中の虫

日本語のことわざに関する問題です。他のモデルは「モグラ」や「木の虫」といった誤答をしていました。

問題:地図記号で、そろばんの珠と軸の形をモチーフにしているのは何?

答え:税務署

日本特有の地図記号に関する問題です。他のモデルの誤答として、「郵便局」「質屋」などが見られました。

データセットのスコアと合わせて、Sarashina2-70Bは日本特有の知識に強いことが分かります。

日本語↔英語翻訳の性能

Sarashina2-70Bの事前学習コーパスには、日本語に加え英語のデータも入っており、日英のバイリンガルモデルとして高い性能を発揮します。

次に挙げる日英翻訳のデータセットでの評価結果を掲載します。

各データセットについてBLEUを算出した結果は以下のとおりです。

Model WMT20
日→英
WMT20
英→日
BSD
日→英
BSD
英→日
平均
Sarashina2-70b 25.11 28.44 26.13 22.23 25.48
Llama-3-Swallow-70B-v0.1 26.45 27.29 25.73 22.2 25.42
Llama-3-Youko-8B 25.74 26.4 25.27 19.28 24.17
Llama-3-70B 25.72 25.43 24.96 18.59 23.68

その他のモデルの結果を表示

Model WMT20
日→英
WMT20
英→日
BSD
日→英
BSD
英→日
平均
Swallow-70B 23.96 26.8 22.36 21.56 23.67
Qwen2-72B 24.96 24.13 25.21 19.97 23.57
Japanese-StableLM-Base-Beta-70B 24.32 24.51 23.34 19.57 22.93
Llama 2 70B 24.30 23.05 22.10 16.42 21.47
Stockmark-100B 12.62 18.67 14.88 15.18 15.34

Sarashina2-70Bの平均スコアが最も高く、日英バイリンガルモデルとしての性能の高さを示しています。 事前学習コーパスの中に、日本語と英語のテキスト両方を豊富に含んでいることを反映していると考えられます。

日本語特化のトークナイザ

70Bを含めたSarashina2シリーズは性能だけではなく、日本語テキストの処理効率も優れています。

LLMはテキストをトークンという単位に分割し、トークンの系列をTransformerに入力して処理を行います。このとき、トークンの数は少なければ少ないほど、計算は軽くなります。

例として、「大規模言語モデルの研究開発」というテキストに対する、Sarashina2のトークン分割の結果と、他のLLMの分割結果を比較します。

Sarashina2 ['大規模', '言語', 'モデルの', '研究開発']
Swallow(語彙拡張あり*2 ['大', '規模', '言語', 'モデル', 'の', '研究', '開発']
Llama3 ['大', '規', '模', '言', '語', 'モ', 'デ', 'ルの', '研究', '開発']
Qwen2 ['大', '規模', '言', '語', 'モデル', 'の', '研究', '開', '�', '�']
('�' のトークンは、Qwen2が「発」の文字をUTF-8表現のバイト列として分割したものを表しています)

この例では「大規模言語モデルの研究開発」というテキストはSarashina2は4トークン、Swallowは7トークン、Llama3とQwen2は10トークンに分割しています。 この場合、同じテキストについて、例えばLlama3とQwen2はSarashina2に比べて2.5倍長い系列として扱うため、Llama3とQwen2は同じ日本語テキストを学習・推論する際にSarashina2の2.5倍の計算量を要することになります。

実際に、ある程度まとまった日本語テキスト*3を用いてトークン分割数を比較すると、Sarashina2に比べて、Swallowは約1.7倍、Llama3は約1.7倍、Qwen2は約1.5倍となります。

Sarashina2は、日本語テキストを処理する際の計算時間が他のモデルに比べて短くなることが期待され、日本語特化のLLMアプリケーションを構築する際の有望な選択肢の一つとなるでしょう。

おわりに

本記事ではSarashina2-70Bの強み・特徴について紹介しました。本モデル含め、Sarashinaシリーズは商用利用も可能なMITライセンスで公開していますので,ぜひ言語モデルの研究開発にご利用いただければと思います。

*1:LLMの出力は貪欲法によるデコーディングで得ています。デコーディングのアルゴリズムの選択によっては、出力が変化しうることをご承知おきください。

*2:Swallowの語彙拡張では、Llama2のトークナイザの語彙に日本語トークンを追加し、日本語テキストの処理効率を向上させています。詳細はSwallowの公式ページをご覧ください。

*3:日本語テキストのトークン分割数の測定にはBSDコーパスのvalidationセットに含まれる日本語テキストを用いました。