SAM Audio(サム・オーディオ)とは?|音を自由に切り取る次世代AIをわかりやすく解説

動画編集や音楽制作をしていると、こんなことを思ったことはありませんか?
- 「この動画、声だけきれいに取り出せたらな…」
- 「車の音だけ消したい」
- 「ギターの音だけ抜き出せたら練習に使えるのに」
これまでは、専用ソフトを使ったり、かなり細かい調整をしたりと、正直ハードルが高い作業でした。
そんな中で登場したのが SAM Audio(サム・オーディオ) です。
これはMeta(旧Facebook)の研究チームが公開した、音を自由に切り取れる新しいAIモデルです。
この記事でわかること
- SAM Audioとは何か
- どんなことができるAIなのか
- どんな場面で役に立つのか
- なぜ今注目されているのか
- 誰でも使えるのか、どうやって試せるのか
専門知識がなくてもイメージしやすいように、できるだけ噛み砕いて説明していきます。
SAM Audioとは?

SAM Audioは、一言でいうと 「音版の切り抜きAI」 です。
写真編集で「人物だけ切り抜く」「背景だけ消す」といった操作がありますよね。
SAM Audioは、それを音でやるイメージです。
動画や音声の中には、たくさんの音が同時に入っています。

- 人の声
- 音楽
- 風や車の音
- 周囲の雑音
SAM Audioは、こうした混ざった音の中から、
「これだけ欲しい」「これはいらない」 という指定をして、目的の音だけを取り出すことができます。
このAIは、Metaの研究チームが公開しているオープンな研究成果をもとに作られており、論文・コード・デモ環境などが公開されています。

何ができるの?
SAM Audioのすごいところは、音の指定方法がとても直感的なところです。
Introducing SAM Audio: the first unified AI model that allows you to isolate and edit sound from complex audio mixtures. This could mean isolating the guitar in a video of your band, filtering out traffic noises, or removing the sound of a dog barking in your podcast, all with… pic.twitter.com/DsePwb5KGV
— Meta Newsroom (@MetaNewsroom) December 16, 2025
1. 言葉で指定できる
たとえば、
- 「犬の鳴き声」
- 「人の話し声」
- 「ギターの音」
といったように、日本語や英語の文章で音を指定できます。
難しい設定や専門用語は不要で、「こういう音」という感覚のまま使えるのが特徴です。

2. 動画を見ながら指定できる
動画がある場合は、
音を出している人や物を画面上で選ぶこともできます。
たとえば、
- しゃべっている人
- 楽器を演奏している人
を選ぶと、その対象にひもづいた音だけを取り出してくれます。
3. 時間で指定できる
「このあたりで音が鳴っている」というように、
時間の範囲をざっくり指定することもできます。
短く鳴る効果音や、一瞬だけ入る雑音にも対応しやすいのがポイントです。
これらは組み合わせて使うことも可能で、より精度の高い音の切り分けができます。
どんな場面で役に立つ?
動画編集・YouTube
- 声だけをきれいに残す
- 生活音や車の音を消す
- 特定の効果音だけ抜き出す
動画編集ソフトで地道にやっていた作業を、大きく時短できます。
音楽・練習用途
- ボーカルだけ消してカラオケを作る
- 楽器の音だけ抜き出して練習に使う
楽器練習を「音源を分解するところ」から始めなくてよくなります。
インタビュー・会話音声
- 複数人の会話から特定の人の声を目立たせる
- 周囲の雑音を減らす
聞き取りやすさが大きく変わります。
日常や研究の場面でも
- 環境音の分析
- 特定の音だけを調べたいとき
研究や検証用途でも使われ始めています。
なぜ注目されているの?
これまでの音声分離AIは、
- 音楽専用
- ノイズ除去専用
- 話し声専用
といったように、用途ごとに別のAIが必要でした。
SAM Audioは、
「とりあえずこれを使えば大体いける」
という、かなり珍しい立ち位置のAIです。
さらに、
- 言葉で指定できる
- 動画を見ながら操作できる
- 誰でも試せる形で公開されている
という点から、研究者だけでなく、
クリエイターや一般ユーザーにも一気に広がっています。
実際に、Metaが公開しているデモ環境では、専門知識がなくても直感的に操作できます。
- Segment Anything Playground: SAM Audioを含む各種Segment Anythingモデルのオンライン実験環境
誰でも使える?どうやって試す?
SAM Audioは、
- プログラムを使って試す方法
- ブラウザ上で触れるデモ環境
の両方が用意されています。
特にデモ環境では、
音声や動画をアップロードして、
「この音を残したい」「この音を消したい」と指定するだけで結果を確認できます。
研究用途としてだけでなく、
実際に触って体験できる形で公開されているのが大きな特徴です。
まとめ

SAM Audioは、
「音を切り抜く」という作業を、誰でもできるものに近づけたAIです。
- 難しい操作なし
- 感覚的な指定
- 幅広い用途
これまで「できそうでできなかった音の編集」を、
ぐっと身近なものにしてくれます。
今後、動画編集・音楽・配信・日常の記録など、
さまざまな場面で活用されていく可能性が高い技術です。
本記事の内容は、Metaの公式発表、公開されている研究資料、コードリポジトリ、デモ環境などの情報を参考に整理しています。
動画編集者や楽曲制作者の方々は、ぜひチェックしてみてください。
関連情報・外部リンク集
- 公式GitHubリポジトリ(facebookresearch/sam-audio): ソースコードとREADME、使用例ノートブック等
- Hugging Faceモデルページ(facebook/sam-audio-large): 学習済みモデルのダウンロード(要ログイン承認)と使用法解説
- Meta公式ニュースリリース(About Meta発表記事): 「Our New SAM Audio Model Transforms Audio Editing」about.fb.com
- Meta AI公式ブログ投稿(英語): Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation(2025年12月16日公開)
- Segment Anything Playground(デモサイト): SAM Audioを含む各種Segment Anythingモデルのオンライン実験環境
- SAM Audio研究論文: SAM-Audio: Segment Anything in Audio. ※執筆時点ではarXiv未公開。引用情報のみ
- SAM Audio Judgeモデルページ(facebook/sam-audio-judge): 自動評価モデルの説明と使用法
- YouTube紹介動画: The First Unified Multimodal Model for Audio Separation – AI at Meta公式チャンネル(モデルのデモ解説映像)
他の記事も見る
同じジャンルのおすすめ
もっと見る →A2UIは実際にどう使われる?想定ユースケースを具体例で解説
A2UIは実際にどのような場面で使われるのか?社内AIツール管理、AIカスタマーサポート、複数エージェント運用、SaaS組み込みなど、具体的なユースケースを一次情報とともに解説します。
A2UIとは?AIエージェント向けUI標準化プロジェクトを徹底解説
A2UIは、AIエージェントの思考や行動を人に伝えるためのUI標準化プロジェクトです。公式サイト・GitHub一次情報をもとに、特徴や使いどころをわかりやすく解説します。

Sim.aiって何?視覚的にAIエージェントを設計できるOSSワークフロー基盤
Sim.aiは、AIエージェントや自動化フローを視覚的に設計・実行できるオープンソースのワークフロー基盤です。LLMやAPIをフローチャート感覚で組み立てられる特徴や、他ツールとの違いを解説します。
新着記事

adk-go とは?Goで始める実務向けAIエージェント開発
adk-goは、Googleが提供するGo向けAIエージェント開発用SDKです。本番運用を前提に、安全で制御しやすいAIエージェントを実装したい開発者向けに、特徴やできることをわかりやすく解説します。

GensparkのAI Developerとは?GensparkのAI Developerを使って安全な便利ツールを作ってみた
GensparkのAI Developerとは何かを解説し、実際にAI Developerを使って開発した便利ツール「LEXIA Tools」の機能や開発体験、今後の展開について紹介します。

v0ってどこまで実用的なアプリ作れる?
v0を使って日程調整アプリ「LEXSYNC」を実際に開発・公開した事例を紹介。UI生成にとどまらず、実運用を見据えたUX設計や技術構成、v0の実践的な活用ポイントを解説します。