LLaMA

LLaMA（ラマ、Large Language Model Meta AI）は、Meta AI が2023年2月に発表した大規模言語モデル（LLM）である^[1]。

LLaMA の開発者の論文^[2]によれば、70億パラメータ（業界の慣習でこれをBillionのBを使って「7B」と書くことがある。以下同様。）から650億パラメータ（65B）まで、いくつものサイズのモデルが作られた。LLaMA-13Bの性能は、GPT-3-175BをほとんどのNLPベンチマークで上回る。そして、LLaMA-65Bの性能は、GoogleのPaLM-540BやDeepMindのChinchilla（英語版）-70Bなど、最先端モデルに匹敵する。

アーキテクチャと学習

LLaMA は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。

LLaMA の開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。

LLaMA は、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。

コモン・クロールでスクレイピングしたWebページ
GitHub のオープンソースリポジトリ
ウィキペディア（20種類の言語）
プロジェクト・グーテンベルクのパブリックドメインの書籍
ArXivにアップロードされた科学論文のLaTeXソースコード
Stack Exchangeウェブサイトの質問と回答

リリースとリーク

LLaMA は、2023年2月23日、ブログ投稿と論文により発表された。

モデルのトレーニングに使用されたコードは、オープンソースのGPLv3ライセンスで公開された^[3]。

それまでは、ほとんどの強力な大規模言語モデルは限られた API を通じてしかアクセスできなかった。Metaは、LLaMA のモデルで学習の結果得られた重みを内部管理し、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可」として、研究コミュニティにだけ非商用ライセンスで利用許可する方針とした。

ところが2023年3月2日、LLaMAのリリースから1週間でその重みが漏れ、4chan経由で拡散されてしまった^[4]。

応用

Alpaca

スタンフォード大学の基盤モデル研究センター（Center for Research on Foundation Models, CRFM）は、LLaMA-7Bをファイン・チューニングした、Alpaca をリリースした^[5]。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した^[6]。

Llama-3-ELYZA-JP

ELYZA（本社：東京都文京区）は、Metaの「Llama 3」シリーズをベースに日本語性能を強化したLLM「Llama-3-ELYZA-JP」（8Bおよび70B）を開発した^[7]。

脚注

[脚注の使い方]

出典

^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3]。
^ “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (24 February 2023). 2023年4月1日閲覧。
^ llama - GitHub
^ Vincent, James (8 March 2023). “Meta's powerful AI language model has leaked online — what happens now?”. The Verge. 2023年4月1日閲覧。
^ stanford alpaca - GitHub
^ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv, arXiv:2212.10560, ISSN 2331-8422 , Wikidata Q117202254
^ “「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました”. ELYZA (2024年6月26日). 2024年6月29日閲覧。

外部リンク

[paper-1] Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3]。

[blog-2] “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (24 February 2023). 2023年4月1日閲覧。

[repo-3] - GitHub

[verge-leak-4] Vincent, James (8 March 2023). “Meta's powerful AI language model has leaked online — what happens now?”. The Verge. 2023年4月1日閲覧。

[5] stanford alpaca - GitHub

[6] Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv, arXiv:2212.10560, ISSN 2331-8422 , Wikidata Q117202254

[7] “「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました”. ELYZA (2024年6月26日). 2024年6月29日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]