SAM Audio（サム・オーディオ）とは？｜音を自由に切り取る次世代AIをわかりやすく解説

動画編集や音楽制作をしていると、こんなことを思ったことはありませんか？

「この動画、声だけきれいに取り出せたらな…」
「車の音だけ消したい」
「ギターの音だけ抜き出せたら練習に使えるのに」

これまでは、専用ソフトを使ったり、かなり細かい調整をしたりと、正直ハードルが高い作業でした。

そんな中で登場したのが SAM Audio（サム・オーディオ） です。
これはMeta（旧Facebook）の研究チームが公開した、音を自由に切り取れる新しいAIモデルです。

この記事でわかること

SAM Audioとは何か
どんなことができるAIなのか
どんな場面で役に立つのか
なぜ今注目されているのか
誰でも使えるのか、どうやって試せるのか

専門知識がなくてもイメージしやすいように、できるだけ噛み砕いて説明していきます。

SAM Audioとは？

https://github.com/facebookresearch/sam-audio?tab=readme-ov-fileより

SAM Audioは、一言でいうと 「音版の切り抜きAI」 です。

写真編集で「人物だけ切り抜く」「背景だけ消す」といった操作がありますよね。
SAM Audioは、それを音でやるイメージです。

動画や音声の中には、たくさんの音が同時に入っています。

人の声
音楽
風や車の音
周囲の雑音

SAM Audioは、こうした混ざった音の中から、
「これだけ欲しい」「これはいらない」 という指定をして、目的の音だけを取り出すことができます。

このAIは、Metaの研究チームが公開しているオープンな研究成果をもとに作られており、論文・コード・デモ環境などが公開されています。

https://aidemos.meta.com/segment-anything/gallery/より

何ができるの？

SAM Audioのすごいところは、音の指定方法がとても直感的なところです。

Introducing SAM Audio: the first unified AI model that allows you to isolate and edit sound from complex audio mixtures. This could mean isolating the guitar in a video of your band, filtering out traffic noises, or removing the sound of a dog barking in your podcast, all with… pic.twitter.com/DsePwb5KGV
— Meta Newsroom (@MetaNewsroom) December 16, 2025

1. 言葉で指定できる

たとえば、

「犬の鳴き声」
「人の話し声」
「ギターの音」

といったように、日本語や英語の文章で音を指定できます。

難しい設定や専門用語は不要で、「こういう音」という感覚のまま使えるのが特徴です。

2. 動画を見ながら指定できる

動画がある場合は、
音を出している人や物を画面上で選ぶこともできます。

たとえば、

しゃべっている人
楽器を演奏している人

を選ぶと、その対象にひもづいた音だけを取り出してくれます。

3. 時間で指定できる

「このあたりで音が鳴っている」というように、
時間の範囲をざっくり指定することもできます。

短く鳴る効果音や、一瞬だけ入る雑音にも対応しやすいのがポイントです。

これらは組み合わせて使うことも可能で、より精度の高い音の切り分けができます。

どんな場面で役に立つ？

動画編集・YouTube

声だけをきれいに残す
生活音や車の音を消す
特定の効果音だけ抜き出す

動画編集ソフトで地道にやっていた作業を、大きく時短できます。

音楽・練習用途

ボーカルだけ消してカラオケを作る
楽器の音だけ抜き出して練習に使う

楽器練習を「音源を分解するところ」から始めなくてよくなります。

インタビュー・会話音声

複数人の会話から特定の人の声を目立たせる
周囲の雑音を減らす

聞き取りやすさが大きく変わります。

日常や研究の場面でも

環境音の分析
特定の音だけを調べたいとき

研究や検証用途でも使われ始めています。

なぜ注目されているの？

これまでの音声分離AIは、

音楽専用
ノイズ除去専用
話し声専用

といったように、用途ごとに別のAIが必要でした。

SAM Audioは、
「とりあえずこれを使えば大体いける」
という、かなり珍しい立ち位置のAIです。

さらに、

言葉で指定できる
動画を見ながら操作できる
誰でも試せる形で公開されている

という点から、研究者だけでなく、
クリエイターや一般ユーザーにも一気に広がっています。

実際に、Metaが公開しているデモ環境では、専門知識がなくても直感的に操作できます。

Segment Anything Playground: SAM Audioを含む各種Segment Anythingモデルのオンライン実験環境

誰でも使える？どうやって試す？

SAM Audioは、

プログラムを使って試す方法
ブラウザ上で触れるデモ環境

の両方が用意されています。

特にデモ環境では、
音声や動画をアップロードして、
「この音を残したい」「この音を消したい」と指定するだけで結果を確認できます。

研究用途としてだけでなく、
実際に触って体験できる形で公開されているのが大きな特徴です。

まとめ

https://aidemos.meta.com/segment-anythingより

SAM Audioは、
「音を切り抜く」という作業を、誰でもできるものに近づけたAIです。

難しい操作なし
感覚的な指定
幅広い用途

これまで「できそうでできなかった音の編集」を、
ぐっと身近なものにしてくれます。

今後、動画編集・音楽・配信・日常の記録など、
さまざまな場面で活用されていく可能性が高い技術です。

本記事の内容は、Metaの公式発表、公開されている研究資料、コードリポジトリ、デモ環境などの情報を参考に整理しています。

動画編集者や楽曲制作者の方々は、ぜひチェックしてみてください。