banner
ニュース センター
品質を犠牲にすることなく、他社の追随を許さない価格を提供します。

Meta AudioCraft: テキスト プロンプトに基づく AI 音楽ジェネレーター

Aug 18, 2023

トッド・スパングラー著

NYデジタル編集者

Meta は、ハイテク巨人が主張する「テキストからの高品質でリアルなオーディオと音楽」を生成する新しい AI ツールのセットである AudioCraft をリリースしました。たとえば、「電子ジャマイカン レゲエ DJ セット」というテキスト文字列に基づいて音楽シーケンスを生成します。 」

「プロのミュージシャンが、楽器で一音も演奏することなく新しい作品を探求できるところを想像してみてください」とメタ氏は AudioCraft に関するブログ投稿で述べています。 「あるいは、中小企業の経営者が Instagram の最新のビデオ広告に簡単にサウンドトラックを追加することもできます。」

AudioCraft は、MusicGen (音楽用)、AudioGen (サウンドエフェクト用)、EnCodec (生成 AI デコーダー) の 3 つのモデルで構成されています。 テクノロジー大手によると、MusicGen はテキストの説明とメタデータとともに約 400,000 件の録音でトレーニングされており、これは Meta が所有する、またはこの目的のために特別にライセンスを取得した 20,000 時間の音楽に相当します。 「音楽トラックは環境音よりも複雑であり、長期的な構造で一貫したサンプルを生成することは、新しい音楽作品を作成する場合に特に重要です」と同社は述べています。

「さらに多くのコントロールを使用すれば、MusicGen は、初めて登場したときのシンセサイザーのように、新しいタイプの楽器に変わる可能性があると考えています」と同社はブログ投稿で述べている。

Meta は、MusicGen によって生成された音楽がどのように聞こえるかを示すクリップを共有しました。 レゲエのリフに加えて、例としては、「パーカッションのある砂漠の映画シーン」、「ドラムのビートのある 80 年代のエレクトロニック」、「ジャズ インストゥルメンタル、ミディアム テンポ、元気のあるピアノ」、「メロウなヒップホップ、ビニール スクラッチ、ディープなサウンド」などが挙げられます。ベース":

一方、メタ氏は、AudioGenは「公共の音響効果」について訓練されており、犬の吠え声、車のクラクション、木の床の足音などの環境音や音響効果を生成できると述べた。 同社はまた、「アーティファクトを減らして高品質の音楽生成を可能にする」EnCodec デコーダの改良版もリリースした。

同社はAudioCraftモデルをオープンソースコードとしてリリースしており、その目的は「研究者や実践者にアクセスを提供して、初めて独自のデータセットを使用して独自のモデルをトレーニングできるようにし、AI生成の分野の進歩を支援すること」であると説明している。オーディオと音楽。」

メタ氏は、AudioCraft モデルのトレーニングに使用されたデータセットには多様性が欠けていることを認めました。特に、使用された音楽データセットには「西洋音楽の大部分が含まれ」ており、テキストとメタデータが英語で書かれたオーディオとテキストのペアに限定されています。 「AudioCraftのコードを共有することで、他の研究者が生成モデルの潜在的なバイアスや誤用を制限または排除するための新しいアプローチをより簡単にテストできることを願っています」と同社は述べた。