Phi (Microsoft) — ファイ
Phiは、Microsoft Researchによって開発された小型言語モデル(Small Language Models, SLM)のファミリーです。これらのモデルは、AI開発におけるパラダイムシフトを象徴しており、コンパクトで計算効率の高いモデルが、はるかに大規模なシステムに匹敵するパフォーマンスを達成できることを示しています。パラメータ数のスケーリングに基づく従来のアプローチとは異なり、Phiの哲学は、訓練データの質と革新的なトレーニング手法に焦点を当てています[1]。
Phiモデルは、プログラミング、数学、テキスト分析など、深い論理的推論を必要とするタスクに最適化されています。その小さなサイズにより、スマートフォンやノートPCを含むローカルデバイス上での展開(オンデバイスAI)に理想的であり、AIの民主化に新たな可能性を開きます[2]。
哲学:「教科書こそが全て」
Phiプロジェクトの根底にある中心的な仮説は、高性能モデルの訓練にはデータの量よりも質が重要であるというものです。この考えは、研究論文「Textbooks Are All You Need」で初めて提唱されました[3]。フィルタリングされていないウェブからの数兆トークンで学習する代わりに、Phiモデルは、教科書のような質を持つ、厳選され合成的に生成されたデータセットで訓練されます。
このアプローチの主要な原則は以下の通りです:
- 「教科書品質」のデータ: 訓練コーパスは、児童書から着想を得た、クリーンで論理的に一貫性のある説明的な教材で構成されています。
- 合成データ: データの大部分は、大規模モデル(例:GPT-4)を用いて生成されます。例えば、Phi-4の訓練のためには、50以上のカスタムパイプラインを通じて4000億トークンの高品質な合成コンテンツが作成されました[4][5]。
- 反復的な訓練: データ作成とモデル訓練のプロセスは反復的に行われ、データとモデル自体の両方の質を継続的に向上させることができます。
このアプローチにより、Phiモデルは単に統計的なパターンを記憶するのではなく、深い推論能力を発達させることができます。
Phiモデルの進化
- Phi-1(13億パラメータ): 2023年6月に発表された最初のモデルで、Pythonでのプログラミングに焦点を当てていました。HumanEvalおよびMBPPベンチマークで優れたパフォーマンスを発揮し、高品質なデータに基づくアプローチの有効性を証明しました[6]。
- Phi-2(27億パラメータ): 2023年12月にリリースされたPhi-2は、コンパクトなアーキテクチャを維持しつつ、その能力を一般的な言語理解にまで拡張しました。このモデルは、SLMが数十倍も大きなモデルに匹敵するパフォーマンスを達成できることを示しました[7]。
- Phi-3(38億~140億パラメータ): 2024年4月に発表されたこのファミリーは、モバイルAIの分野でブレークスルーとなりました。Phi-3-mini(38億)はスマートフォン上で動作可能で、Mixtral 8x7BやGPT-3.5に匹敵するパフォーマンスを達成します[8]。このファミリーには、Phi-3-small(70億)およびPhi-3-medium(140億)バージョンも含まれます。
- Phi-3.5(38億~66億アクティブパラメータ): 2024年に発表されたこのファミリーには、3つの主要モデルが含まれます:
- Phi-3.5-mini-instruct: 多言語サポートが強化された最適化バージョン。
- Phi-3.5-MoE-instruct: 16のエキスパートと66億のアクティブパラメータを持つMixture-of-Expertsアーキテクチャに基づくモデル。
- Phi-3.5-Vision-instruct: テキストと画像を処理するためのマルチモーダルモデル[9]。
- Phi-4(140億パラメータ): 複雑な数学的推論に特化したモデル。大幅に小さいサイズでありながら、Gemini-1.5-FlashやGPT-4o-miniに匹敵するパフォーマンスを示します。Phi-4-reasoningはDeepSeek-R1-Distill-Llama-70Bを上回ります[10]。
- Phi-4-Multimodal(56億パラメータ): テキスト、画像、音声を同時に処理できる、ファミリー初の完全なマルチモーダルモデル。革新的なMixture-of-LoRAsアプローチを用いて、相互干渉なしに様々なモダリティを効率的に処理します[11]。
アーキテクチャと技術的特徴
- アーキテクチャ: Phiモデルは、標準的な「デコーダのみ」(decoder-only)のトランスフォーマーアーキテクチャを使用し、効率を高めるためにGrouped Query AttentionやFlash Attentionなどの主要な最適化が施されています[12]。
- ローカル展開: モデルはリソースが限られたデバイスで動作するように最適化されています。例えば、Phi-3-miniは4ビット量子化でわずか1.8GBのメモリしか必要とせず、iPhone 14で動作可能です[13]。
- フレームワークのサポート: PhiモデルはMicrosoft Azure AI Model Catalog、Hugging Face、Ollama、NVIDIA NIM microservicesを通じて利用可能であり、開発者にとって幅広い統合とアクセシビリティが確保されています[14]。
パフォーマンスとベンチマーク
| モデル | パラメータ | MMLU | MT-Bench | HumanEval |
|---|---|---|---|---|
| Phi-3-mini | 3.8B | 69% | 8.38 | - |
| Phi-3-small | 7B | 75% | 8.7 | - |
| Phi-3-medium | 14B | 78% | 8.9 | - |
| Phi-4 | 14B | - | - | GPT-4を上回る |
Phi-4は、American Mathematics Competitions (AMC)を含む数学的な課題で卓越した結果を示し、Gemini-1.5-Flashに匹敵するパフォーマンスを発揮します[15]。マルチモーダルなPhi-3.5-Visionは、同等サイズの競合モデルを上回り、BLINKベンチマークで57.0%を達成しています[16]。
専門分野での応用
Phiモデルは、ニッチな分野で高い効果を発揮します:
- 医療: 研究によると、Phi-3の回答は、医療およびスポーツ関連のテキストにおいて専門家の評価と中程度の相関関係があることが示されています[17]。
- ヘイトスピーチの検出: Phi-2をベースにしたHateTinyLLMモデルは、LoRAファインチューニングを用いることで、このタスクにおいて80%以上の精度を達成しています[18]。
- ゲーム戦略: SC-Phi2モデルは、ゲーム「StarCraft II」における戦略予測の能力を示しました[19]。
責任あるAIと安全性
Phiファミリーは、説明責任、透明性、公平性、安全性といった原則を含むMicrosoft Responsible AIの基準に従って開発されています。モデルは、教師ありファインチューニング(SFT)や直接選好最適化(DPO)を含む多角的な安全性評価、さらに様々な言語やリスクカテゴリでのテストを受けています[20]。
制限事項
印象的な結果にもかかわらず、Phiモデルは一部の複雑なタスクにおいて、特化した大規模モデルに劣ることがあります。例えば、Phi-4は連鎖的思考(chain-of-thought)の推論で良好な結果を示しますが、関数呼び出し(function calling)の機能がないという制限があります[21]。また、Phi-3.5は20以上の言語をサポートしていますが、そのパフォーマンスは言語によって異なる可能性があり、研究では英語以外の言語での回答に不正確さが示されています[22]。
参考文献
- Gunasekar, S.; et al. (2023). Textbooks Are All You Need. arXiv:2306.11644.
- Gunasekar, S.; et al. (2023). Textbooks Are All You Need II: phi‑1.5 Technical Report. arXiv:2309.05463.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Zheng, S.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models for Faster Decoding. arXiv:2305.13245.
- Feng, W.; et al. (2024). Mixture‑of‑LoRAs: An Efficient Multitask Tuning for Large Language Models. arXiv:2403.03432.
- Wu, X.; et al. (2024). Mixture of LoRA Experts. arXiv:2404.13628.
- Microsoft Research (2024). Phi‑3 Technical Report. arXiv:2404.14219.
- Abdin, M.; et al. (2024). Phi‑4 Technical Report. arXiv:2412.08905.
- Microsoft Research (2025). Phi‑4‑reasoning Technical Report. PDF.
- Microsoft Research (2025). Phi‑4‑Multimodal: Mixture‑of‑Modality‑LoRAs. arXiv:2503.01743.
注釈
- ↑ 「The Phi-3 small language models with big potential」。 Microsoft Source Features。[1]
- ↑ 「Microsoft's Phi-3: Revolutionising AI with efficient and accessible small language models」。 Landing.Jobs Blog。[2]
- ↑ 「Textbooks Are All You Need」。 Microsoft Research。[3]
- ↑ 「Introducing Phi-4: Microsoft’s newest Small Language Model, specializing in complex reasoning」。 Microsoft Tech Community。[4]
- ↑ 「Exploring Phi-4: A Deep Dive into Microsoft's Latest Language Model」。 OpenCV Blog。[5]
- ↑ 「Unlocking the Power of Small Language Models (SLMs): The Evolution of Phi」。 LinkedIn。[6]
- ↑ 「Новая ИИ-модель Phi-2 от Microsoft училась по учебникам」。 TechInsider。[7]
- ↑ 「Phi-3 Technical Report」。 arXiv。[8]
- ↑ 「Discover the new multi-lingual, high-quality Phi-3.5 SLMs」。 Microsoft Tech Community。[9]
- ↑ 「Phi-4 Technical Report」。 arXiv。[10]
- ↑ 「Mixture-of-Modality-LoRAs: A Low-Rank Approach to Natively Multimodal Foundation Models」。 arXiv。[11]
- ↑ 「Phi-3: A Tutorial on Microsoft's Small Language Models (SLMs)」。 DataCamp。[12]
- ↑ 「Unlocking the Power of Small Language Models (SLMs): The Evolution of Phi」。 LinkedIn。[13]
- ↑ 「Microsoft Phi」。 Microsoft Azure。[14]
- ↑ 「Exploring Phi-4: A Deep Dive into Microsoft's Latest Language Model」。 OpenCV Blog。[15]
- ↑ 「Phi-3.5-vision-instruct」。 Hugging Face。[16]
- ↑ 「Small But Mighty: Exploring the Capabilities of Small Language Models in Medical and Sport-Specific Applications」。 arXiv。[17]
- ↑ 「HateTinyLLMs: A Small Language Model for Hate Speech Detection」。 arXiv。[18]
- ↑ 「SC-Phi2: A Specialized Small Language Model for StarCraft II」。 MDPI。[19]
- ↑ 「Microsoft’s Phi-3.5: a responsible, small language model」。 Skymod。[20]
- ↑ 「Phi-4: A New Era of Small Language Models」。 Meta-quantum.today。[21]
- ↑ 「A Multi-faceted Analysis of Language-specific Bias in Large Language Models」。 U.S. Securities and Exchange Commission。[22]