exoとは？余ってる端末が“ひとつのAIクラスター”になるOSSを解説

ローカルでLLM（大きめのAI）を動かしてみたい。でも、モデルが大きいと 1台のPCだけじゃ重い し、マシンを新調するのも気が引ける…。

そんなときに名前が挙がりやすいのが、GitHubで公開されている 「exo（exo-explore/exo）」 です。

exoはざっくり言うと、同じネットワーク上の複数デバイスを束ねて“1つのAIクラスター”として動かす ことを目指したツール。
「古い端末やサブPCも、チーム戦に参加させよう」みたいな発想です。

この記事でわかること

exoが何をするツールなのか（ざっくりイメージ）
どんな場面で役に立ちそうか
仕組みのポイント
はじめて触るときの流れ（ダッシュボード／APIの話まで）
使う前に知っておきたい注意点

exoを一言でいうと

複数のデバイスを自動で見つけて、モデルを分割して、いっしょに推論（生成）を回す ためのオープンソースです。

AIの計算（重い処理）を、複数台で分割（並列化）して持つ やり方ですね。

どんなときに役に立つ？（想定ユースケース）

1) 「ローカルで動かしたい」けど1台だと厳しい

モデルが大きいほど、メモリや計算がきつくなります。
exoはそこを 複数台で割ってなんとかしよう という思想。

2) 手元に端末が複数ある（Mac/PC/ミニPCなど）

メインPC1台だけじゃなく、仕事してない子も戦力にします。

仕事用のサブPC
使ってないノート
家族の余ってる端末

こういうのを“寄せ集め”して戦力化できる可能性があります。

3) 「クラウドじゃなくローカルで回したい」理由がある

例えば

データを外に出したくない
ネットが不安定な場所でも動かしたい
実験コストを抑えたい

上記に当てはまる人は刺さりますね。

exoの特徴

ここからは、公式リポジトリのREADMEなどを参照して、ポイントをまとめます。

自動でデバイスを発見してつながる

exoは「手動でクラスタ設定しなくても、起動している端末同士が見つけ合う」やり方を打ち出しています。

複数端末を扱うときの“最初の面倒”を減らしたい という設計ですね。

ネットワーク状況も見て、分割のしかたを考える（Topology-aware）

速い端末／遅い端末、Wi‑Fi／有線…みたいに環境はバラバラになりがち。
exoはREADMEで、

デバイスの性能
ネットワークの遅延や帯域

を考慮して「いい感じに分割する」ことを目指す、と説明しています。

たとえると、

筋肉マッチョには重い荷物を
細身な人には軽い荷物を

配って、全体としてスムーズに運ぶ…みたいなイメージ。

Thunderbolt 5のRDMAを“推し”にしている

exoのREADMEでは 「RDMA over Thunderbolt 5」 が特徴として挙げられています。

Thunderbolt 5におけるRDMA（Remote Direct Memory Access）とは、ネットワークで接続された他のコンピューターのメモリ（RAM）に対し、OSやCPUを介さずに直接読み書きを行う技術のこと。
参考：https://appleinsider.com/articles/25/12/20/ai-calculations-on-mac-cluster-gets-a-big-boost-from-new-rdma-support-on-thunderbolt-5#:~:text=Typical%20Ethernet%2Dbased%20cluster%20computing,access%20has%20now%20improved%20considerably.

デバイス間のデータやり取りを“速く・低遅延にする”ための仕組み です。

推論バックエンドはMLX、分散通信はMLX distributed

READMEでは、

推論の中核に MLX
分散通信に MLX distributed

を使う方針が明記されています。

MLXはApple Siliconの文脈で話題に出やすいライブラリで、exoの位置づけも「その上で分散をやる」寄りの説明です。

まず触るときの流れ

1) 起動してダッシュボードを見る

https://github.com/exo-explore/exo#quick-start

exoはローカルでダッシュボードとAPIを立ち上げる想定で、URLは README で http://localhost:52415 と案内されています。

「動いたかどうか」を最短で確認するなら、まずここ。

2) OpenAI互換っぽいAPIで叩ける

READMEでは /v1/chat/completions を用意していて、OpenAIの形式に合わせた例が載っています。

つまり、

“OpenAI互換のクライアント”
あるいは自作ツール

から呼べる可能性がある、ということ。

他にも GET /models や GET /state の例がREADMEにあります。

セットアップ例

ここは「雰囲気が掴める」ことを優先して、READMEに沿った形でざっくり紹介します。
（※コマンドは環境で変わるので、実行前に公式の手順も必ず確認してください）

macOS / Linux

# 1) リポジトリを取得
git clone https://github.com/exo-explore/exo.git
cd exo

# 2) dashboard をビルド（フロント側）
cd exo/dashboard
npm install
npm run build
cd ../..

# 3) 起動（READMEでは uv を使う流れ）
uv run exo

起動後はブラウザで

http://localhost:52415

を開いてダッシュボードを見る、という流れです。

※READMEではmacOS向けに macmon のインストールにも触れているので、macOSの場合はそこも確認してください。

対応環境・注意点

macOSはGPU、Linuxは現状CPU（README記載）

READMEの「Hardware Accelerator Support」では、

macOS：GPU
Linux：CPU（現状）

という説明があります。

“速さ”はネットワークの影響が大きい

複数台で動かす以上、

Wi‑Fiか有線か
どのくらい混雑しているか
端末が離れすぎていないか

こういうところで体感が変わります。

「よし、4台で爆速！」を期待しすぎるより、
まずは 2台で動かして“どこがボトルネックか”を見る のが気楽です。

セキュリティ的には“LAN内のサービス公開”に注意

ローカルのAPIやダッシュボードは便利だけど、
設定次第ではネットワークに公開されることもあり得ます。

誰がアクセスできる状態か
外部から到達できないか

は、最初にざっとチェックしておくのがおすすめ。

どこまでできる？

exoは「大きいモデルを複数台で動かしたい」という夢がある一方で、現実は環境で差が出ます。

“クラスタっぽいこと”を手元で試す入口 として面白い
まずは小さく動かして、
- ネットワーク
- 端末の熱
- どこが遅いか

を知る勉強材料になる。

まとめ

exoは、複数デバイスを束ねてAI推論を分担させることを目指すOSSです。

自動でデバイスを見つける
ネットワーク状況も踏まえて分割を考える
ダッシュボード（localhost:52415）とAPI（/v1/chat/completions など）を提供
macOSはGPU、Linuxは現状CPUという前提がある

「余ってる端末、ただ眠らせるのもったいないな…」って人ほど、試す価値ありです。

参照した一次情報（公式・一次ソース中心）

exo（公式GitHub / README）
https://github.com/exo-explore/exo

MLX / MLX distributed（公式ドキュメント・公式リポジトリ）
https://ml-explore.github.io/mlx/build/html/usage/distributed.html
https://github.com/ml-explore/mlx

exo Labs（関連公式サイト）
https://exolabs.net/

exo Labs Blog（開発側の一次情報として）
https://blog.exolabs.net/day-1

exo README内で引用されている外部検証（Jeff Geerling氏の記事）
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5

ローカルでLLM（大きめのAI）を動かしてみたい。でも、モデルが大きいと 1台のPCだけじゃ重い し、マシンを新調するのも気が引ける…。

そんなときに名前が挙がりやすいのが、GitHubで公開されている 「exo（exo-explore/exo）」 です。

この記事でわかること

exoが何をするツールなのか（ざっくりイメージ）
どんな場面で役に立ちそうか
仕組みのポイント
はじめて触るときの流れ（ダッシュボード／APIの話まで）
使う前に知っておきたい注意点

exoを一言でいうと

複数のデバイスを自動で見つけて、モデルを分割して、いっしょに推論（生成）を回す ためのオープンソースです。

AIの計算（重い処理）を、複数台で分割（並列化）して持つ やり方ですね。

どんなときに役に立つ？（想定ユースケース）

1) 「ローカルで動かしたい」けど1台だと厳しい

モデルが大きいほど、メモリや計算がきつくなります。
exoはそこを 複数台で割ってなんとかしよう という思想。

2) 手元に端末が複数ある（Mac/PC/ミニPCなど）

メインPC1台だけじゃなく、仕事してない子も戦力にします。

仕事用のサブPC
使ってないノート
家族の余ってる端末

こういうのを“寄せ集め”して戦力化できる可能性があります。

3) 「クラウドじゃなくローカルで回したい」理由がある

例えば

データを外に出したくない
ネットが不安定な場所でも動かしたい
実験コストを抑えたい

上記に当てはまる人は刺さりますね。

exoの特徴

ここからは、公式リポジトリのREADMEなどを参照して、ポイントをまとめます。

自動でデバイスを発見してつながる

exoは「手動でクラスタ設定しなくても、起動している端末同士が見つけ合う」やり方を打ち出しています。

複数端末を扱うときの“最初の面倒”を減らしたい という設計ですね。

ネットワーク状況も見て、分割のしかたを考える（Topology-aware）

速い端末／遅い端末、Wi‑Fi／有線…みたいに環境はバラバラになりがち。
exoはREADMEで、

デバイスの性能
ネットワークの遅延や帯域

を考慮して「いい感じに分割する」ことを目指す、と説明しています。

たとえると、

筋肉マッチョには重い荷物を
細身な人には軽い荷物を

配って、全体としてスムーズに運ぶ…みたいなイメージ。

Thunderbolt 5のRDMAを“推し”にしている

exoのREADMEでは 「RDMA over Thunderbolt 5」 が特徴として挙げられています。

デバイス間のデータやり取りを“速く・低遅延にする”ための仕組み です。

推論バックエンドはMLX、分散通信はMLX distributed

READMEでは、

推論の中核に MLX
分散通信に MLX distributed

を使う方針が明記されています。

MLXはApple Siliconの文脈で話題に出やすいライブラリで、exoの位置づけも「その上で分散をやる」寄りの説明です。

まず触るときの流れ

1) 起動してダッシュボードを見る

https://github.com/exo-explore/exo#quick-start

exoはローカルでダッシュボードとAPIを立ち上げる想定で、URLは README で http://localhost:52415 と案内されています。

「動いたかどうか」を最短で確認するなら、まずここ。

2) OpenAI互換っぽいAPIで叩ける

READMEでは /v1/chat/completions を用意していて、OpenAIの形式に合わせた例が載っています。

つまり、

“OpenAI互換のクライアント”
あるいは自作ツール

から呼べる可能性がある、ということ。

他にも GET /models や GET /state の例がREADMEにあります。

セットアップ例

macOS / Linux

# 1) リポジトリを取得
git clone https://github.com/exo-explore/exo.git
cd exo

# 2) dashboard をビルド（フロント側）
cd exo/dashboard
npm install
npm run build
cd ../..

# 3) 起動（READMEでは uv を使う流れ）
uv run exo

起動後はブラウザで

http://localhost:52415

を開いてダッシュボードを見る、という流れです。

※READMEではmacOS向けに macmon のインストールにも触れているので、macOSの場合はそこも確認してください。

対応環境・注意点

macOSはGPU、Linuxは現状CPU（README記載）

READMEの「Hardware Accelerator Support」では、

macOS：GPU
Linux：CPU（現状）

という説明があります。

“速さ”はネットワークの影響が大きい

複数台で動かす以上、

Wi‑Fiか有線か
どのくらい混雑しているか
端末が離れすぎていないか

こういうところで体感が変わります。

「よし、4台で爆速！」を期待しすぎるより、
まずは 2台で動かして“どこがボトルネックか”を見る のが気楽です。

セキュリティ的には“LAN内のサービス公開”に注意

ローカルのAPIやダッシュボードは便利だけど、
設定次第ではネットワークに公開されることもあり得ます。

誰がアクセスできる状態か
外部から到達できないか

は、最初にざっとチェックしておくのがおすすめ。

どこまでできる？

exoは「大きいモデルを複数台で動かしたい」という夢がある一方で、現実は環境で差が出ます。

“クラスタっぽいこと”を手元で試す入口 として面白い
まずは小さく動かして、
- ネットワーク
- 端末の熱
- どこが遅いか

を知る勉強材料になる。

まとめ

exoは、複数デバイスを束ねてAI推論を分担させることを目指すOSSです。

自動でデバイスを見つける
ネットワーク状況も踏まえて分割を考える
ダッシュボード（localhost:52415）とAPI（/v1/chat/completions など）を提供
macOSはGPU、Linuxは現状CPUという前提がある

「余ってる端末、ただ眠らせるのもったいないな…」って人ほど、試す価値ありです。

参照した一次情報（公式・一次ソース中心）

exo（公式GitHub / README）
https://github.com/exo-explore/exo

MLX / MLX distributed（公式ドキュメント・公式リポジトリ）
https://ml-explore.github.io/mlx/build/html/usage/distributed.html
https://github.com/ml-explore/mlx

exo Labs（関連公式サイト）
https://exolabs.net/

exo Labs Blog（開発側の一次情報として）
https://blog.exolabs.net/day-1

exo README内で引用されている外部検証（Jeff Geerling氏の記事）
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5

この記事でわかること

exoを一言でいうと

どんなときに役に立つ？（想定ユースケース）

1) 「ローカルで動かしたい」けど1台だと厳しい

2) 手元に端末が複数ある（Mac/PC/ミニPCなど）

3) 「クラウドじゃなくローカルで回したい」理由がある

exoの特徴

自動でデバイスを発見してつながる

ネットワーク状況も見て、分割のしかたを考える（Topology-aware）

Thunderbolt 5のRDMAを“推し”にしている

推論バックエンドはMLX、分散通信はMLX distributed

まず触るときの流れ

1) 起動してダッシュボードを見る

2) OpenAI互換っぽいAPIで叩ける

セットアップ例

macOS / Linux

対応環境・注意点

macOSはGPU、Linuxは現状CPU（README記載）

“速さ”はネットワークの影響が大きい

セキュリティ的には“LAN内のサービス公開”に注意

どこまでできる？

まとめ

参照した一次情報（公式・一次ソース中心）

AIの関連記事

新着記事

この記事でわかること

exoを一言でいうと

どんなときに役に立つ？（想定ユースケース）

1) 「ローカルで動かしたい」けど1台だと厳しい

2) 手元に端末が複数ある（Mac/PC/ミニPCなど）

3) 「クラウドじゃなくローカルで回したい」理由がある

exoの特徴

自動でデバイスを発見してつながる

ネットワーク状況も見て、分割のしかたを考える（Topology-aware）

Thunderbolt 5のRDMAを“推し”にしている

推論バックエンドはMLX、分散通信はMLX distributed

まず触るときの流れ

1) 起動してダッシュボードを見る

2) OpenAI互換っぽいAPIで叩ける

セットアップ例

macOS / Linux

対応環境・注意点

macOSはGPU、Linuxは現状CPU（README記載）

“速さ”はネットワークの影響が大きい

セキュリティ的には“LAN内のサービス公開”に注意

どこまでできる？

まとめ

参照した一次情報（公式・一次ソース中心）

AIの関連記事

新着記事