日本語性能トップクラスの LLM・Sarashina2-70B の公開

SB Intuitionsの李凌寒、高瀬翔です。

日本語に強い大規模言語モデル（LLM）Sarashina2-70Bを公開しました。国内でフルスクラッチで学習をしたLLMの中では、大規模な70Bパラメータを持ち、日本語性能もトップクラス、かつオープンな MIT ライセンスで公開されています。以下のHugging Face Hubのページからダウンロード可能です。

sbintuitions/sarashina2-70b

なお、本モデルは指示チューニングといった事後学習は行われておらず、対話形式での使用はできないことにご注意ください。

Sarashina2は7Bと13Bのモデルも公開されており、今回の70Bモデルと合わせて、日本語QAの性能の上ではトップクラスの性能を示しています。各組織が公開しているLLMについて、縦軸に日本語QAの平均スコア、横軸にパラメータ数をとりプロットした図を掲載します。

なお、Sarashina2-70Bの構築方法は、次のテックブログに記載されているものに基本的に沿ったものになります。 www.sbintuitions.co.jp

またSarashina2-7B, 13Bのモデルについての詳細な評価については次の記事をご覧ください。 www.sbintuitions.co.jp

ここでは、Sarashina2-70Bの強み・特徴について紹介いたします。

日本語QAの性能

Sarashina2-70Bは日本語を豊富に含んだコーパスで事前学習されており、日本に特有の知識に強いという特徴を持ちます。

次に挙げる日本語QAデータセットでの評価結果を掲載します。

AI王（自由記述式質問応答）[鈴木+, 2020]
abc-multiple-choice（選択式質問応答）[鈴木, 2024]（abc と略記）
JEMHopQA（自由記述式質問応答、選択式質問応答、2値分類）[石井+, 2023]
NIILC-QA（自由記述式質問応答）[関根, 2003]（NIILC と略記）
JCommonsenseQA（選択式質問応答）[Kurihara+, 2022]（JComQA と略記）
JSQuAD（機械読解）[Kurihara+, 2022]

各データセットについて正解率を算出し、70B以上のパラメータを持つモデルの結果を掲載します。平均スコアが上位の４モデルの結果は以下のとおりです。

	AI王	abc	JEMHopQA	NIILC	JComQA	JSQuAD	平均
Sarashina2-70B	89.50	89.11	82.05	53.09	94.64	91.78	83.36
Swallow-70B	87.70	84.89	80.34	58.64	95.17	90.97	82.95
Llama-3-Swallow-70B-v0.1	79.70	83.56	70.09	50.62	96.87	91.90	78.79
Japanese-StableLM-Base-Beta-70B	67.90	70.89	58.97	45.68	93.66	91.42	71.42

その他のモデルの結果を表示

	AI王	abc	JEMHopQA	NIILC	JComQA	JSQuAD	平均
Llama-3-Youko-8B	62.00	73.11	50.43	46.30	95.26	90.57	69.61
Llama-3-70B	59.90	71.11	50.43	45.68	95.17	90.43	68.79
Qwen2-72B	51.00	74.67	55.56	37.65	96.78	92.53	68.03
Llama-2-70B	55.00	66.00	52.99	42.59	89.72	89.69	66.00
Stockmark-100B	68.30	50.89	41.88	40.74	39.68	52.18	48.95

Sarashina2-70Bの平均スコアが最も高い結果となっています。

Sarashina2-70Bが特に優れているのはAI王やabc-multiple-choiceといった日本語クイズです。今回の評価で得られたLLMの出力*1のうち、Sarashina2-70Bのみが正解を出力した、AI王の問題とその答えを抜粋します。

問題：組織の内部にいながらその組織に害を及ぼす者のことを俗に「何の虫」という?

答え：獅子身中の虫

日本語のことわざに関する問題です。他のモデルは「モグラ」や「木の虫」といった誤答をしていました。

問題：地図記号で、そろばんの珠と軸の形をモチーフにしているのは何?

答え：税務署

日本特有の地図記号に関する問題です。他のモデルの誤答として、「郵便局」「質屋」などが見られました。

データセットのスコアと合わせて、Sarashina2-70Bは日本特有の知識に強いことが分かります。

日本語↔英語翻訳の性能

Sarashina2-70Bの事前学習コーパスには、日本語に加え英語のデータも入っており、日英のバイリンガルモデルとして高い性能を発揮します。

次に挙げる日英翻訳のデータセットでの評価結果を掲載します。

WMT20 日英翻訳（ニュース記事の翻訳）[Barrault+, 2020]
ビジネスシーン対話（BSD）対訳コーパス（ビジネス会話の翻訳）[Rikters+, 2019]

各データセットについてBLEUを算出した結果は以下のとおりです。

Model	WMT20 日→英	WMT20 英→日	BSD 日→英	BSD 英→日	平均
Sarashina2-70b	25.11	28.44	26.13	22.23	25.48
Llama-3-Swallow-70B-v0.1	26.45	27.29	25.73	22.2	25.42
Llama-3-Youko-8B	25.74	26.4	25.27	19.28	24.17
Llama-3-70B	25.72	25.43	24.96	18.59	23.68

その他のモデルの結果を表示

Model	WMT20 日→英	WMT20 英→日	BSD 日→英	BSD 英→日	平均
Swallow-70B	23.96	26.8	22.36	21.56	23.67
Qwen2-72B	24.96	24.13	25.21	19.97	23.57
Japanese-StableLM-Base-Beta-70B	24.32	24.51	23.34	19.57	22.93
Llama 2 70B	24.30	23.05	22.10	16.42	21.47
Stockmark-100B	12.62	18.67	14.88	15.18	15.34

Sarashina2-70Bの平均スコアが最も高く、日英バイリンガルモデルとしての性能の高さを示しています。事前学習コーパスの中に、日本語と英語のテキスト両方を豊富に含んでいることを反映していると考えられます。

日本語特化のトークナイザ

70Bを含めたSarashina2シリーズは性能だけではなく、日本語テキストの処理効率も優れています。

LLMはテキストをトークンという単位に分割し、トークンの系列をTransformerに入力して処理を行います。このとき、トークンの数は少なければ少ないほど、計算は軽くなります。

例として、「大規模言語モデルの研究開発」というテキストに対する、Sarashina2のトークン分割の結果と、他のLLMの分割結果を比較します。

Sarashina2	['大規模', '言語', 'モデルの', '研究開発']
Swallow（語彙拡張あり*2）	['大', '規模', '言語', 'モデル', 'の', '研究', '開発']
Llama3	['大', '規', '模', '言', '語', 'モ', 'デ', 'ルの', '研究', '開発']
Qwen2	['大', '規模', '言', '語', 'モデル', 'の', '研究', '開', '�', '�']

（'�' のトークンは、Qwen2が「発」の文字をUTF-8表現のバイト列として分割したものを表しています）

この例では「大規模言語モデルの研究開発」というテキストはSarashina2は4トークン、Swallowは7トークン、Llama3とQwen2は10トークンに分割しています。この場合、同じテキストについて、例えばLlama3とQwen2はSarashina2に比べて2.5倍長い系列として扱うため、Llama3とQwen2は同じ日本語テキストを学習・推論する際にSarashina2の2.5倍の計算量を要することになります。

実際に、ある程度まとまった日本語テキスト*3を用いてトークン分割数を比較すると、Sarashina2に比べて、Swallowは約1.7倍、Llama3は約1.7倍、Qwen2は約1.5倍となります。

Sarashina2は、日本語テキストを処理する際の計算時間が他のモデルに比べて短くなることが期待され、日本語特化のLLMアプリケーションを構築する際の有望な選択肢の一つとなるでしょう。