exoとは?余ってる端末が“ひとつのAIクラスター”になるOSSを解説

ローカルでLLM(大きめのAI)を動かしてみたい。でも、モデルが大きいと 1台のPCだけじゃ重い し、マシンを新調するのも気が引ける…。
そんなときに名前が挙がりやすいのが、GitHubで公開されている 「exo(exo-explore/exo)」 です。
exoはざっくり言うと、同じネットワーク上の複数デバイスを束ねて“1つのAIクラスター”として動かす ことを目指したツール。
「古い端末やサブPCも、チーム戦に参加させよう」みたいな発想です。
この記事でわかること
- exoが何をするツールなのか(ざっくりイメージ)
- どんな場面で役に立ちそうか
- 仕組みのポイント
- はじめて触るときの流れ(ダッシュボード/APIの話まで)
- 使う前に知っておきたい注意点
exoを一言でいうと

複数のデバイスを自動で見つけて、モデルを分割して、いっしょに推論(生成)を回す ためのオープンソースです。
AIの計算(重い処理)を、複数台で分割(並列化)して持つ やり方ですね。
どんなときに役に立つ?(想定ユースケース)
1) 「ローカルで動かしたい」けど1台だと厳しい
モデルが大きいほど、メモリや計算がきつくなります。
exoはそこを 複数台で割ってなんとかしよう という思想。
2) 手元に端末が複数ある(Mac/PC/ミニPCなど)
メインPC1台だけじゃなく、仕事してない子も戦力にします。
- 仕事用のサブPC
- 使ってないノート
- 家族の余ってる端末
こういうのを“寄せ集め”して戦力化できる可能性があります。
3) 「クラウドじゃなくローカルで回したい」理由がある
例えば
- データを外に出したくない
- ネットが不安定な場所でも動かしたい
- 実験コストを抑えたい
上記に当てはまる人は刺さりますね。
exoの特徴
ここからは、公式リポジトリのREADMEなどを参照して、ポイントをまとめます。
自動でデバイスを発見してつながる
exoは「手動でクラスタ設定しなくても、起動している端末同士が見つけ合う」やり方を打ち出しています。
複数端末を扱うときの“最初の面倒”を減らしたい という設計ですね。
ネットワーク状況も見て、分割のしかたを考える(Topology-aware)
速い端末/遅い端末、Wi‑Fi/有線…みたいに環境はバラバラになりがち。
exoはREADMEで、
- デバイスの性能
- ネットワークの遅延や帯域
を考慮して「いい感じに分割する」ことを目指す、と説明しています。
たとえると、
- 筋肉マッチョには重い荷物を
- 細身な人には軽い荷物を
配って、全体としてスムーズに運ぶ…みたいなイメージ。
Thunderbolt 5のRDMAを“推し”にしている
exoのREADMEでは 「RDMA over Thunderbolt 5」 が特徴として挙げられています。
Thunderbolt 5におけるRDMA(Remote Direct Memory Access)とは、ネットワークで接続された他のコンピューターのメモリ(RAM)に対し、OSやCPUを介さずに直接読み書きを行う技術のこと。
参考:https://appleinsider.com/articles/25/12/20/ai-calculations-on-mac-cluster-gets-a-big-boost-from-new-rdma-support-on-thunderbolt-5#:~:text=Typical%20Ethernet%2Dbased%20cluster%20computing,access%20has%20now%20improved%20considerably.
デバイス間のデータやり取りを“速く・低遅延にする”ための仕組み です。
推論バックエンドはMLX、分散通信はMLX distributed
READMEでは、
- 推論の中核に MLX
- 分散通信に MLX distributed
を使う方針が明記されています。
MLXはApple Siliconの文脈で話題に出やすいライブラリで、exoの位置づけも「その上で分散をやる」寄りの説明です。
まず触るときの流れ

1) 起動してダッシュボードを見る
https://github.com/exo-explore/exo#quick-start
exoはローカルでダッシュボードとAPIを立ち上げる想定で、URLは README で http://localhost:52415 と案内されています。
「動いたかどうか」を最短で確認するなら、まずここ。
2) OpenAI互換っぽいAPIで叩ける
READMEでは /v1/chat/completions を用意していて、OpenAIの形式に合わせた例が載っています。
つまり、
- “OpenAI互換のクライアント”
- あるいは自作ツール
から呼べる可能性がある、ということ。
他にも GET /models や GET /state の例がREADMEにあります。
セットアップ例
ここは「雰囲気が掴める」ことを優先して、READMEに沿った形でざっくり紹介します。
(※コマンドは環境で変わるので、実行前に公式の手順も必ず確認してください)
macOS / Linux
# 1) リポジトリを取得
git clone https://github.com/exo-explore/exo.git
cd exo
# 2) dashboard をビルド(フロント側)
cd exo/dashboard
npm install
npm run build
cd ../..
# 3) 起動(READMEでは uv を使う流れ)
uv run exo
起動後はブラウザで
http://localhost:52415
を開いてダッシュボードを見る、という流れです。
※READMEではmacOS向けに macmon のインストールにも触れているので、macOSの場合はそこも確認してください。
対応環境・注意点
macOSはGPU、Linuxは現状CPU(README記載)
READMEの「Hardware Accelerator Support」では、
- macOS:GPU
- Linux:CPU(現状)
という説明があります。
“速さ”はネットワークの影響が大きい
複数台で動かす以上、
- Wi‑Fiか有線か
- どのくらい混雑しているか
- 端末が離れすぎていないか
こういうところで体感が変わります。
「よし、4台で爆速!」を期待しすぎるより、
まずは 2台で動かして“どこがボトルネックか”を見る のが気楽です。
セキュリティ的には“LAN内のサービス公開”に注意
ローカルのAPIやダッシュボードは便利だけど、
設定次第ではネットワークに公開されることもあり得ます。
- 誰がアクセスできる状態か
- 外部から到達できないか
は、最初にざっとチェックしておくのがおすすめ。
どこまでできる?
exoは「大きいモデルを複数台で動かしたい」という夢がある一方で、現実は環境で差が出ます。
- “クラスタっぽいこと”を手元で試す入口 として面白い
- まずは小さく動かして、
- ネットワーク
- 端末の熱
- どこが遅いか
を知る勉強材料になる。
まとめ
exoは、複数デバイスを束ねてAI推論を分担させることを目指すOSSです。
- 自動でデバイスを見つける
- ネットワーク状況も踏まえて分割を考える
- ダッシュボード(
localhost:52415)とAPI(/v1/chat/completionsなど)を提供 - macOSはGPU、Linuxは現状CPUという前提がある
「余ってる端末、ただ眠らせるのもったいないな…」って人ほど、試す価値ありです。
参照した一次情報(公式・一次ソース中心)
exo(公式GitHub / README)
https://github.com/exo-explore/exo
MLX / MLX distributed(公式ドキュメント・公式リポジトリ)
https://ml-explore.github.io/mlx/build/html/usage/distributed.html
https://github.com/ml-explore/mlx
exo Labs(関連公式サイト)
https://exolabs.net/
exo Labs Blog(開発側の一次情報として)
https://blog.exolabs.net/day-1
exo README内で引用されている外部検証(Jeff Geerling氏の記事)
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5
最後までお読みいただきありがとうございます
この記事が参考になりましたら、ぜひシェアや他の記事もご覧ください。
AIの関連記事
もっと見る →
Claude-memとは?Claudeの記憶を拡張できるオープンソースのAIツール「Claude-mem」の実際の使い方や活用事例、他AIとの比較を初心者にもわかりやすく解説します。
19分
「AIエージェントを動かしたいけれど、高価なPCやサーバーが必要なんでしょう?」そう思っていませんか。実は、たった10ドルのハードウェアと、Sipeed PicoClawという魔法のようなソフトウェアがあれば、誰でも自分だけのAIアシスタントを持てる時代が来たようです。この記事では、PicoClawの魅力と導入方法を、初心者の方にも分かりやすく、優しく解説してみようと思います。
18分
Jesse Vincent氏の「Superpowers」を使って、コーディングAIをジュニアから頼れるシニアエンジニアに進化させる方法を解説します。
13分新着記事
一覧を見る →
Supermemoryとは何かを初心者向けに整理。公式ドキュメントを参照しながら、AIが忘れる理由や記憶を補う仕組み、RAGとの違いをやさしく解説します。
5分
無料のAI音声入力アプリ「Amical(アミカル)」の基本と使い方を初心者向けに解説。Amicalとは何か、ダウンロード・インストール方法、対応デバイス、マイク設定、Whisperエンジンやオフライン利用の可否まで、この記事一つでわかります。
9分