導入事例

ソニーが提示する、AIによる音源分離で広がるエンターテイメント世界の可能性とは

AI Start Lab 編集部 2021.4.27
18歳以下の世代が作り出す、新たなエンターテイメント。

ソニーグループ株式会社が小中高校生を対象にして実施した「エンタメのブカツ2021」は、ソニーの培ってきたエンターテイメント力とテクノロジーを活用し、次世代を担う中高生クリエイターたちと共に作品を作り上げるプロジェクトだ。

そもそも、コロナ禍の今になぜこのようなプロジェクトが立ち上がることになったのか。それを下支えしたAIによる「音源分離」とは何か。

まずはプロジェクトの企画・運営を手掛けたソニーグループ株式会社ブランド戦略部門の岡野詩音氏に話を聞いた。

若手クリエイターの育成を目指すプロジェクト


ソニーグループ株式会社 ブランド戦略部門 岡野詩音 氏

「ソニーの存在意義として掲げているのは、『クリエイティビティとテクノロジーの力で世界を感動に満たす』というもの。こうした理念のもと、クリエイターの方々に寄り添う存在でありたいという思いがあります。そのクリエイターの中には、現場の第一線で活躍する人たちはもちろんのこと、これからの時代を担う次世代のクリエイターも含まれます。彼らの育成や機会創出といったところにも、力を入れていきたいというのが構想の出発点です」(岡野氏)

ソニー グループ株式会社 プレスリリースより

実施された「エンタメのブカツ2021」は、中高生がAIと共創するプロジェクト「ミュージックビデオ制作部」と、小学生を対象に好奇心を刺激しクリエイティビティを育む「STEAM(スティーム)ワークショップ部」の2つで構成される。

ソニーグループ株式会社 YouTubeより

ミュージックビデオ制作部は、審査で選ばれた6名の中高生が、ミュージックビデオを制作するというもの。テーマ曲となるのは、ソニー・ミュージックレーベルズ所属のアーティスト、「いきものがかり」のデビュー曲である「SAKURA」。第一線で活躍するプロの映像クリエイターなどに映像制作の指導を受けながら制作していく。

ソニーグループ株式会社 プレスリリースより

制作に付随して、昨年末から小中高生によるメッセージや歌声動画の募集を行っており、それらは制作されたミュージックビデオの中に組み込まれている。いわば参加者全員の卒業制作として、プロジェクトは進められた。

一方、STEAM(スティーム)ワークショップ部はいきものがかりのボーカルである吉岡聖恵氏の歌う童謡「こぶたぬきつねこ」をテーマにプログラミングや工作体験、エンタテインメントコンテンツの創作などのワークショップをオンラインで行う。

いずれも未来を担う世代がソニーの誇るテクノロジーに触れ合うことで、自身の持つクリエイティビティを刺激するプロジェクトとなっている。


「コロナ禍でのミュージックビデオ制作は、安全対策を考慮した上で、さまざまな制約が課せられました。ミーティングはすべてオンライン会議システム。撮影は中高生クリエイターたちと撮影部隊とをリモートで結び、行われました。これらの試みは、プロの現場でもまだようやく始まったばかりといえるものばかりで、コロナ禍ならではの制作現場だったと思います」(岡野氏)

さまざまなイベントが中止され、授業や学校行事もほとんどがオンラインとなってしまった中高生クリエイターたちにとって、このプロジェクトはおおいに好奇心とクリエイティビティを刺激されたことだろう。

彼らの制作したミュージックビデオは、「エンタメのブカツ」公式サイトで確認することができる。

ソニーグループ株式会社 YouTubeより

ソニーグループ株式会社 YouTubeより

コロナ禍での映像制作を下支えした「音源分離」技術


ミュージックビデオ制作に使われたのが、ソニーの「音源分離」というAIを使った技術だ。全国の中高生から投稿された歌声動画は、カラオケ音源に乗せて歌われているものだが、その中のボーカル部分のみを抽出するのに使われた技術で、公開されたミュージックビデオを見ても、まったく別の場所で、バラバラの媒体で収録された音源を組み合わせたものであることはまったく分からない。

Vocal Extraction Demo from User Generated Content 

「音源分離」の開発に10年以上携わっているというソニーグループ株式会社R&DセンターDistinguished Engineerの光藤祐基氏が説明する。

ソニーグループ株式会社 R&Dセンター Distinguished Engineer 光藤祐基氏

「これまで、完パケ音源は変えられないというのが常識でした。『音源分離』が可能にしたのは、例えて言うなら、リンゴジュースとオレンジジュースが完全にミックスされた飲み物から、リンゴジュースだけを分離して取り出す、といったイメージ。今回の『エンタメのブカツ』で使われたのは、伴奏やノイズが含まれる音源からボーカル部分のみをきれいに取り出すというものです」

ソニーグループ株式会社 プレスリリースより

一般的な音楽制作の現場では、ボーカルならボーカル、ギターならギターと、別々のトラックに分けられて録音している。それをミキシングエンジニアやマスタリングエンジニアが音量などを調整し、最終的に混ぜ合わせたものが完パケとなる。「音源分離」が目指すのは、この完パケの状態から、再び別々のトラックに戻すことだ。

「音源分離」においてAIが解析しているのは、それぞれの時間方向と周波数方向の変化。音源によって立ち上がり・立ち下がりや周波数は異なる。AIに人の声や楽器の音を学習させることで、その特長を判断し取り出させる、という仕組みだ。

この技術は、実はすでに一般のユーザにも利用されている場面がある。6600万曲以上を提供するストリーミングサービス「LINE MUSIC」で、昨年8月に実装されたカラオケ機能だ。楽曲のボーカル部分のみをカットし、ユーザの歌声を音源に乗せて再生することができる。

また、同社の開発するスマートフォン「Xperia1 II」以降の数モデルでは、風切り音を低減する機能が搭載されているが、これにも「音源分離」の技術が活用されている。

音楽、映画、撮影……未知の可能性を秘めた技術


「音源分離」は新しいコンテンツを生み出す可能性を秘めている、と光藤氏は意気込む。

「例えば、レジェンドといわれるアーティストの音源を抽出して、いっしょにプレイを楽しむ、ということもできますし、同じスタジオに集合して演奏をしなくても、別々の場所で収録された音源からノイズや部屋のエコーなどを分離してスタジオ収録に近い状態に戻してあげれば、それらを組み合わせて新しい作品作りができる。場所や時間の縛りから解放される技術となり得ます」(光藤氏)


この技術の活用は音楽だけにとどまらない。

さまざまな音が混在する映画からも、細かい要素を抽出することができるという。実際に、作品のセリフ部分と効果音の部分を取り出し、効果音を空間に再配置したクラシック映画『アラビアのロレンス』が米国でリリースされており、従来よりも臨場感のある音が楽しめる作品に生まれ変わっている。

ソニー グループ株式会社 YouTubeより

この技術は2015年に行われた音源分離の国際コンペティションSiSEC(Signal Separation Evaluation Campaign)で、圧倒的なベストスコアを叩き出し、世界に賞賛されている。

その根底には、ソニーの環境面が非常に大きい。徹底的に音質にこだわる社風もさることながら、同社はソニーミュージックやソニー・ピクチャーズといった、「音源分離」にとって親和性の高い事業を展開している。開発した技術をクリエイターの現場でテストを重ね、そこから得られるフィードバックにより技術を磨き上げてきた、という背景がある。

光藤氏は、「音源分離」の今後の展開について次のように語った。


「我々の中でモチベーションが高いのは、過去の優れた遺産を、新しい時代のフォーマットに変換し得るということ。きっと、その時代のアーティストも、当時の技術ではなかなか表現できなかったものを、もし現在のテクノロジーがあれば、こういう表現をしたのではないか。そんな可能性を発掘していきたいと考えています」(光藤氏)

苦境が続くとされる日本の音楽業界。ストリーミングやサブスクリプションへの転向が進む世界市場に比べ、日本市場の規模は縮小傾向にあるといわれる。そんななか、「音源分離」による新たな楽曲の楽しみ方が、日本の音楽業界に差す光明となるか。注目していきたい。


◎ 撮影時のみマスクを外していただきました。

取材=編集部、文=小野 雅彦、撮影=宇佐美亮

ソニーグループポータル | Sony エンタメのブカツ 2021
https://www.sony.com/ja/brand/campaign/entamenobukatsu/?j-short=entamenobukatsu

印刷ページを表示
WRITTEN by

AI Start Lab 編集部

AI・人工知能のビジネス活用についての情報をさまざまな視点からお伝えしていきます。

AIのビジネス活用に関する
最新情報をお届け

会員登録

会員登録していただくと、最新記事やAI関連のイベント情報を受け取れたり、その他会員限定コンテンツの閲覧が可能です。是非ご登録ください。