LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。
以下は、phi-1のパフォーマンスを他のモデルと比較したものです。phi-1はプログラミング能力を評価するためのデータセットであるHumanEvalで50.6%、MBPPで55.5%と、高い精度を示しました。この結果はGPT-4の67%には及びませんが、パラメーター数が1750億のGPT-3.5を上回るものでした。
phi-1がいかに軽量なのかについて、論文の著者のひとりであるセバスチャン・ビューベック氏は「他のHumanEval50%超えのモデルは1000倍も大きいです。例えば、WizardCoderはモデルサイズが10倍、データセットが100倍でした」と説明しています。
「Textbooks Are All You Need(必要なのは教科書だけ)」と題された論文によると、このモデルはインターネットから収集された教科書品質のデータセット60億トークンと、GPT-3.5から生成された教科書データセット10億トークンを使い、8台のNVIDIA A100によるわずか4日間のトレーニングで作られたとのこと。
※以下省略。記事全文はソース元にて
2023年06月22日 20時00分
https://gigazine.net/news/20230622-phi-1-large-language-model-microsoft/
■引用元記事
Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa
https://analyticsindiamag.com/microsoft-releases-1-3-bn-parameter-language-model-outperforms-llama/
■論文
Textbooks Are All You Need
https://arxiv.org/abs/2306.11644
(゚∀。)ナルヘソ
なんでGPT-3.5とか言ってんだ
人知を超えることを目的でやってるやつと
そこそこ性能をコンパクトにの違いやろな🥺
データ処理の技術ってだいたい似たようなアプローチになるよな。
最初は高性能を目指すんだけど、だんだん高性能なものは似たような品質になってきて区別がつきにくくなって、低性能でも高効率なものに関心が移りはじめる。
Windowsにチャットgpt搭載するから軽量化が必要なんだろ
そしてロボットに組み込まれるようになる
近い将来はプロジェクターに表示されたバスケットボールでシュートできるようになるの
コートの幅も解像度の可変のように自由自在に変更できる
こういったホログラフィックマッピングを使えば三次元で映像を映すことができる
これを使ってバーチャルキーボードがあるように、すでに接触によるポインティング動作が可能になっている
これができればバーチャファイターも3d空間でできるようになる
http
s://xr-hub.com/wp-content/uploads/2019/02/gif-32-2.gif
マリオ64のラジコンが出る
引用元: 【AI】Microsoftがたった13億のパラメーターでGPT-3.5超えのパフォーマンスをたたき出す「phi-1」を発表 [oops★]