MoE(混合専門家モデル)白書2024年版 製本版

  [出版日]

2024年10月15日

  [ページ数]

A4判/約160ページ
(※ バインダー製本とPDF版では編集上の違いによりページ数が若干異なります。)

  [発行]

監修・発行: 一般社団法人 次世代社会システム研究開発機構

  [セットでご購入される場合の特典について]

多くのご要望を受け、製本版とPDF版をセットでご購入される場合には、PDF版の価格を半額でご提供しております。その場合、本ページ最下欄にあるカートからのご購入手続きではなく、お手数ですが、本サイトの上段にある「お問い合わせ(Contact)」から、その旨、お問い合わせください。


  [レポート内容]

■概要■

昨今、MoEの普及が進んでいるにもかかわらず、MoEに関する体系的かつ包括的なレビューが不足している。本白書では、MoEモデルに関する動向、論文、文献を体系的かつ包括的にレビューし、MoE技術の展望を探る者にとって価値ある大要として提供するものである。

本白書では、MoEモデルに関して形成されつつある分類法を紹介し、アルゴリズム設計、システム設計、コンピューティングシステムのサポート、実用的な応用といったさまざまな視点を包含する分析を提供し、
それぞれ分類法で概説した構造に従って掘り下げている。

さらに、この分野で直面する課題に焦点を当て、将来的に最も有望な研究・開発・実装手段を概説する。

本白書が、MoEモデルを迅速に理解しようとする研究者、実務者、AI投資家、アナリスト等にとって不可欠な参考資料となり、MoE探索における継続的な更新と最先端開発の共有を促進することを願っている。


■内容編成(目次)■



第1章 MoE(専門家混合モデル)概説

1-1 まえがき
1-2 定義・概念の広がり
1-3 MoEモデルが関心を集める根拠・背景
1-4 LLMとMoEの関係
1-5 密なモデルよりも効果的にスケールするMoEモデル


第2章 MoEの展開と背景

2-1 概説
2-2 密なMoE
2-3 疎なMoE
2-4 MoEのスパース混合
2-5 条件付き計算
2-6 言語のためのMoE
2-7 視覚のためのMoE
2-8 浅いMoE
2-9 トランスフォーマーモデルへの応用


第3章 MoEに関する分類法

3-1 概説
3-2 TransformerベースのモデルにおけるMoE層


第4章 MoEがもたらす効率向上

4-1 MoE言語モデルのスケーリング則
4-2 効率的なスケーリングと生涯学習
4-3 検索補強モデル
4-4 効率的なフィードフォワード層
4-5 関連研究
グーグル・ディープマインド 「100万人のMoE」


第5章 MoEの研究動向

5-1 概況・近況
5-2 スパース性/活性化スパース性
5-3 異種MoE
5-4 スパースゲートMoE
5-5 ルーティング戦略
5-6 ニューラルアーキテクチャ探索
5-7 トップPルーティング戦略
5-8 事例
[1] テンセント・フンユアン/マサチューセッツ工科大学 「言語モデリングのための専門家の異種混合:HMoE」


第6章 MoE普及の課題・解法の道筋

6-1 概説
6-2 モデルのサイズ
6-3 トレーニングの安定性と負荷分散
6-4 スケーラビリティと通信オーバーヘッド
6-5 言語処理タスクに対応
6-6 専門家の専門化とコラボレーション
6-7 スパース活性化と計算効率
6-8 汎化性と頑健性
6-9 解釈可能性と透明性
6-10 学習後のLLMの量子化
6-11 パラメータオフロードによる推論
6-12 LLM圧縮による効率性、信頼性の向上
6-13 モデルを圧縮する際の問題
6-14 最適化された活性化オフロード
[1] 異なるエキスパートに対する不均等な計算負荷への対処
[2] LLMの量子化
[3] MoEの圧縮


第7章 最適化されたMoE活性化オフロード

7-1 MoEモデルの最適化
7-2 LLMの量子化とMoE
7-3 MoEの圧縮


第8章 専門家混合アルゴリズムの設計

8-1 ゲーティング機能
[1] 疎なゲーティング関数
[2] 密度
[3] ソフト



第9章 エキスパート・ネットワークのアーキテクチャ

9-1 ネットワークの種類
[1] フィード・フォワード・ネットワーク
[2] アテンション
[3] その他
9-2 ハイパーパラメーター
[1] 専門家の数
[2] エキスパートのサイズ
[3] MoE層の頻度
9-3 アクティベーション機能
9-4 共有エキスパート


第10章 MoE派生モデルの進化

10-1 概説
10-2 パラメータ効率の良いMoE
[1] フィード・フォワード・ネットワーク
[2] アテンション
[3] トランス・ブロック
[4] 各レイヤー
10-3 トレーニングと推論スキーム
[1] 密から疎へ
[2] 疎から密へ
[3] エキスパートモデルのマージ
10-4 派生モデル
10-5 パラメータ効率の良い微調整(PEFT)
10-6 Mixture of Depthアーキテクチャによるアプローチ


第11章 MoEの設計

11-1 計算
11-2 コミュニケーション
11-3 ストレージ


第12章 MoEの応用

12-1 自然言語処理
12-2 コンピュータビジョン
12-3 レコメンダー・システム
12-4 マルチモーダル・アプリケーション



第13章 MoEアーキテクチャの統合による大規模マルチモーダルモデルの機能拡張

13-1 概説
13-2 漸進的学習アプローチ
13-3 フレームワーク
13-4 戦略的トレーニング
13-5 トレーニング
13-6 統一されたマルチモーダルモデル
13-7 LLMのためのマルチモーダル命令チューニング
13-8 MoEによる大規模モデル
13-9 関連研究
[1] インスティテュート・オブ・テクノロジー他研究チーム 「Uni-MoE:MoEによる統一マルチモーダルLLMのスケーリング」


第14章 MoEのソリューション

14-1 動的なエキスパート配置・複製


第15章 非線形性を識別するための強力なモデルとしてのMoE

15-1 概説


第16章 SMoEs(スパースMoEモデル)

16-1 Sparse Mixture of Experts (SMoEs)による推論とトレーニング速度、メモリフットプリントの改善
16-2 関連研究
[1] グーグル・ブレイン 「専門家のスパース混合によるスケーリング・ビジョン」
[2] アーロン・クールビル 「Sparse Mixture-of-Expertによる分散実施」


第17章 主なプレーヤー/商用利用可能なMeEモデル

17-1 Mistral AI 「Mixtral 8x7B」
17-2 IBM 「量子回路の最適化、量子コンピューティング能力の強化:Qiskit SDK v1.2」
17-2 マイクロソフト 「勾配情報付き専門家混合MoEモデル:GRIN MoE」
17-3 マイクロソフト/中国科学院大学 「Q-Sparse:LLMにおける活性化の完全なスパース性を可能にするAIアプローチ」
17-4 アレンAI研究所/コンテクスチュアルAI/ワシントン大学/プリンストン大学の研究チーム 「完全にオープンソース化されたMoE」
17-5 XVERSE Technology 「MOEアーキテクチャと大規模言語処理における新たな基準を設定する多言語 AI モデル: XVERSE-MoE-A36B」
17-6 DeepSeek-AI 「MoEを特徴とする最先端の238億パラメータモデル:DeepSeek-V2.5」


第18章 その他主な研究論文紹介

18-1 テキサス大学オースティン校、ドレクセル大学、MIT、UIUC、ローレンス・リバモア国立研究所、AI安全性センター他研究チーム 「LLM圧縮の評価: AI言語モデル開発における効率性、信頼性、倫理性のバランス
18-2 非線形力学系のための専門家モデルの変分ベイズ混合と感度分析
18-3 モスクワ物理工科大学 「オフロードを用いた専門家混合言語モデルの高速推論」

型番 moewp24-a
販売価格 132,000円(内税)
購入数