Hugging Face — ハギングフェイス
Hugging Face, Inc.は、現代の人工知能(AI)エコシステムにおいて中心的な位置を占めるアメリカの企業です。同社はオープンソースのプラットフォームを提供しており、しばしば「機械学習のためのGitHub」と呼ばれ、モデル、データセット、デモアプリケーション用のリポジトリを含んでいます[1]。同社のミッションは、ツールを提供し、共同作業のためのグローバルなコミュニティを構築することによってAIを民主化することです[2]。
同社は2016年にフランスの起業家であるクレマン・ドランジュ(CEO)、ジュリアン・ショーモン(CTO)、トーマス・ウルフ(CSO)によって設立されました。チャットボット開発企業から主要なプラットフォームへと進化し、Hugging Faceは世界中の研究者、開発者、大企業にとって不可欠な存在となり、2023年には評価額が45億ドルに達しました[3]。
会社の歴史と設立
設立と戦略的転換(2016年)
当初、Hugging Faceは2016年に、10代の若者をターゲットとした消費者向けアプリケーション、すなわちチャットボットを開発するために設立されました。社名は「抱きしめる顔」の絵文字(🤗)に由来し、AI対話パートナーの友好的で共感的な性質を反映するために選ばれました[1]。
しかし、このチャットボットは大きな人気を得ることはありませんでした。この初期の失敗が、戦略を根本的に変更するきっかけとなりました。最終製品を開発する代わりに、創業者たちはチャットボットの基盤となっていたモデルのソースコードを公開することを決定しました[3]。コミュニティからの反応により、最先端の自然言語処理(NLP)モデルを扱うための、アクセスしやすいツールに対する膨大な需要があることが明らかになりました。
同社は戦略的転換を行い、大企業だけでなく誰もがAI技術を利用できるようにするというミッションのもと、機械学習プラットフォームの構築へと方向転換しました。このようにして、B2C製品の失敗がB2D(Business-to-Developer)モデルでの成功につながり、オープン性とコミュニティ志向の原則が同社のDNAに刻まれました[4]。
主要な発展段階と資金調達
戦略的転換後、同社は急速な成長を遂げました。
- 2019年: Transformersライブラリが作成されました。当初はNLP向けに開発されましたが、急速にコンピュータビジョンや音声分野のモデルをサポートするように拡張され、業界のデファクトスタンダードとなりました[5]。
- 2022年7月: Hugging Faceが主催した国際的なワークショップBigScienceが完了しました。その成果として、1760億個のパラメータを持つオープンソースの多言語モデルBLOOMがリリースされました。
- 2022年12月: Hugging Faceは、インタラクティブなデモを迅速に作成するための人気のオープンソースライブラリGradioを買収しました。
- 2023年8月: 2億3500万ドルのシリーズD資金調達ラウンドが実施され、その結果、同社の評価額は45億ドルに上昇しました。このラウンドには、Google、Amazon、Nvidia、Salesforce、Intel、AMD、IBMが参加しました[6]。
- 2024年4月: 同社はPollen Roboticsを買収し、これはエンボディドAI(embodied AI)分野への関心の拡大を示唆しています[3]。
Hugging Face Ecosystem - Hugging Faceのエコシステム
Hugging Faceのエコシステムは、データ準備からデプロイメントまで、機械学習モデル開発のライフサイクル全体をカバーしています。
Hugging Face Hub - Hugging Faceハブ
エコシステムの中心となるのが、共同作業のための中央ウェブプラットフォームであるHugging Face Hubです。これには以下が含まれます:
- モデルリポジトリ: モデル、その重み、設定ファイルを保存するためのGitリポジトリ。実験の再現性を確保するためのバージョン管理を提供します。
- データセットリポジトリ(Datasets): データセットを保存し、バージョン管理するための同様のリポジトリ。
- Spaces: GradioやStreamlitなどのフレームワークを使用して、モデルに基づいたウェブアプリケーション(デモ)を作成・展示するためのインタラクティブな環境。
- モデルカード(Model Cards): モデルの特性、制限、潜在的なバイアスを記述する標準化されたドキュメントで、透明性の向上に貢献します[7]。
Transformers Library - Transformersライブラリ
TransformersはHugging Faceの主力ソフトウェア製品であり、何千もの事前学習済みモデルにアクセスするための統一されたAPIを提供します。主な特徴は以下の通りです:
- フレームワークとの互換性: PyTorch、TensorFlow、JAXとのシームレスな統合。
- 使いやすさ: モデルの読み込み、ファインチューニング、使用が数行のコードで実行できます。
- 効率性: 膨大な数のモデルへのアクセスを提供し、ゼロからのトレーニングを回避できるため、リソースを節約し、二酸化炭素排出量を削減します[8]。
その他の主要なライブラリ
- Datasets: Apache Arrowフォーマットを使用してデータセットに効率的にアクセスし、処理するためのライブラリ。
- Tokenizers: テキストをトークン化するためのRustで書かれた高性能なライブラリ。
- Accelerate: 複数のGPU/TPUでの分散学習を簡素化します。
- PEFT (Parameter-Efficient Fine-Tuning): 大規模モデルを効率的にファインチューニングするための手法を集めたライブラリ。
- Safetensors: ニューラルネットワークの重みを保存するための安全かつ高速なフォーマットで、エコシステムにおけるデフォルトの標準となっています。
ビジネスモデルと市場での位置づけ
Hugging Faceはフリーミアムのビジネスモデルを採用しており、オープンアクセスと法人顧客向けの商用サービスを組み合わせています。
- 無料プラン(Free Tier): 公開リポジトリの無制限ホスティングを提供し、何百万人ものユーザーを惹きつけています。
- 収益源:
- PROサブスクリプション: 拡張された制限を持つ個人向けサブスクリプション(月額9ドル)。
- Enterprise Hub: 強化されたセキュリティ、SSO、オンプレミスでのデプロイ、優先サポートを備えた法人向け製品(ユーザー1人あたり月額20ドルから)。
- 有料の計算リソース: Inference Endpointsなどのサービスを通じた、トレーニングおよび推論用のコンピューティング能力への有料アクセス。
同社は自身を中立的なインフラプラットフォーム、すなわち「AI界のスイス」として位置づけ、主要なクラウドプロバイダー(AWS、Google Cloud、Microsoft Azure)やハードウェアメーカーと深いパートナーシップを築いています。
AIの民主化というミッション
Hugging Faceのアイデンティティの中核には、オープンソースとオープンサイエンスの原則を通じて実現される、AIの民主化というミッションがあります。
この哲学の顕著な具現化が、研究イニシアチブBigScienceです。Hugging Faceが主催したこのオープンな国際ワークショップには、1000人以上の研究者が集まりました。その成果がモデルBLOOMです。これは、1760億個のパラメータを持つ大規模な多言語モデルであり、Responsible AI Licenseの下でリリースされました。このライセンスは広範な使用を許可する一方で、高リスク分野での利用には制限を課しています[9]。
外部リンク
注釈
- ↑ 1.0 1.1 “What is Hugging Face? A Beginners Guide”. 365 Data Science. [1]
- ↑ “What is Hugging Face?”. IBM. [2]
- ↑ 3.0 3.1 3.2 “Hugging Face”. Wikipedia. [3]
- ↑ “What is Brief History of Hugging Face Company”. Canvas Business Model. [4]
- ↑ “The Transformers Library: standardizing model definitions”. Hugging Face Blog. [5]
- ↑ “HuggingFace Statistics”. Originality.ai. [6]
- ↑ “Model Cards”. Hugging Face Docs. [7]
- ↑ “Transformers”. Hugging Face Docs. [8]
- ↑ “bigscience/bloom”. Hugging Face. [9]
Category:AI tools