対話型AIの学習データの言語割合は？韓国語の学習データが少な過ぎる？

グローバル大手IT企業の対話型AI競争が激しい中、新たにMeta(旧Facebook)が人工知能「LLaMA」が発表されました。しかし、その人工知能の学習元データの言語割合を見てみると、韓国語が見当たりません。

news.kbs.co.kr記事の日時：2023.03.01

グローバル大手IT企業が対話型AI競争で激突しており、Googleとマイクロソフトに続きMeta(旧Facebook)も人工知能「LLaMA」を発表しました。
Metaは「LLaMA」の性能がChatGPTより優れていると強調し、「LLaMA」の事前学習データ量が多くはChatGPTの2倍程度だと説明しています。

[테크톡] ‘한국어’는 뒷전?…격렬해진 AI 전쟁 - KBS NEWS記事内より引用

膨大な学習データのうち、韓国語の割合は？

注目すべきは、「LLaMA」の事前学習データです。
「LLaMA」はWeb上に公開されたデータのみを使用し、コモン・クロール*167.0%、GitHub 4.5%、Wikipedia 4.5%などです。

これらのデータは 20 の言語で構成されています。
Metaは「ラテン語とキリル語アルファベットを使用する言語を中心に最も多く使われる20ヶ国語を選択した」と説明しており、韓国語が含まれていません。

また、Chat GPT開発会社であるOpenAIは以前のモデルである「GPT-3」を基盤にChat GPTを開発しましたが、GPT-3の事前学習データ言語別比率が公開されています。

この資料によると、Open AIは事前学習データとしてWikipedia、新聞記事などを利用しており、単語別に見た時、英語の割合が92.6%で最も多く、続いてフランス語（1.82%）、ドイツ語（1.47%）の順です。

韓国語は28位で、比率は0.01697%です。

人工知能にとって事前学習データは核心原動力であるため、韓国語資料の不足は他の言語に比べて性能を低下させる可能性があり、韓国語関連の質問処理速度が遅くなる可能性があるというのが専門家の懸念です。

このような状況は翻訳、長い文章要約、作文などの韓国語言語処理機能も低下させ、今後人工知能技術が発展するほど致命的になる可能性があります。

これに関連して、韓国大手NAVERはChat GPTより韓国語を6500倍多く学習した人工知能を7月に公開する発表しています。

（記事の内容・要約ここまで）

ニュースに出てきた韓国語

뒷전：後ろ、後回し

격렬：熾烈

열어젖히다：開け放す

정교해지다：精巧になる

원동력：原動力

매개변수：媒介変数、パラメーター

Chat GPTを活用した韓国語学習の例【プロンプト付き】

*1:クローラ事業を行い、そのアーカイブとデータセットを自由提供している非営利団体 - コモン・クロール - Wikipediaより

韓国のIT系ニュースをまとめるブログ

韓国語の勉強も兼ねつつ韓国のテック事情をまとめています。

対話型AIの学習データの言語割合は？韓国語の学習データが少な過ぎる？

膨大な学習データのうち、韓国語の割合は？

ニュースに出てきた韓国語