【AI】Microsoftがたった13億のパラメーターでGPT-3.5超えのパフォーマンスをたたき出す「phi-1」を発表 [oops★]

2023年6月25日 2023年6月24日

くりぱふ

1: あやかのニュース速報！ 2023/06/23(金) 20:52:55.81 ID:e25IpPbm

LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。

以下は、phi-1のパフォーマンスを他のモデルと比較したものです。phi-1はプログラミング能力を評価するためのデータセットであるHumanEvalで50.6％、MBPPで55.5％と、高い精度を示しました。この結果はGPT-4の67％には及びませんが、パラメーター数が1750億のGPT-3.5を上回るものでした。

phi-1がいかに軽量なのかについて、論文の著者のひとりであるセバスチャン・ビューベック氏は「他のHumanEval50％超えのモデルは1000倍も大きいです。例えば、WizardCoderはモデルサイズが10倍、データセットが100倍でした」と説明しています。

「Textbooks Are All You Need(必要なのは教科書だけ)」と題された論文によると、このモデルはインターネットから収集された教科書品質のデータセット60億トークンと、GPT-3.5から生成された教科書データセット10億トークンを使い、8台のNVIDIA A100によるわずか4日間のトレーニングで作られたとのこと。

※以下省略。記事全文はソース元にて

2023年06月22日 20時00分
https://gigazine.net/news/20230622-phi-1-large-language-model-microsoft/

■引用元記事
Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa
https://analyticsindiamag.com/microsoft-releases-1-3-bn-parameter-language-model-outperforms-llama/

■論文
Textbooks Are All You Need
https://arxiv.org/abs/2306.11644

12: あやかのニュース速報！ 2023/06/24(土) 08:21:10.48 ID:SuFUrpg5

>>1
（ﾟ∀。）ﾅﾙﾍｿ

3: あやかのニュース速報！ 2023/06/23(金) 21:10:51.15 ID:PNxDtWak

しかしパラメーター数増やしてもGPT-4を超えられないと言うオチなんだろ
なんでGPT-3.5とか言ってんだ

6: あやかのニュース速報！ 2023/06/23(金) 21:35:34.56 ID:jBPouB/n

>>3
人知を超えることを目的でやってるやつと
そこそこ性能をコンパクトにの違いやろな🥺

9: あやかのニュース速報！ 2023/06/24(土) 07:32:13.50 ID:J4/w8xto

>>3
データ処理の技術ってだいたい似たようなアプローチになるよな。
最初は高性能を目指すんだけど、だんだん高性能なものは似たような品質になってきて区別がつきにくくなって、低性能でも高効率なものに関心が移りはじめる。