JSTトッププレス一覧 > 共同発表

平成24年8月29日

独立行政法人 産業技術総合研究所

独立行政法人 科学技術振興機構

インターネット上の楽曲の中身を自動解析する音楽鑑賞システム
—誰でも利用できる能動的音楽鑑賞サービス「Songle」を一般公開—

< ポイント>

<概要>

独立行政法人 産業技術総合研究所【理事長 野間口 有】(以下「産総研」という) 情報技術研究部門【研究部門長 伊藤 智】後藤 真孝 上席研究員 兼 メディアインタラクション研究グループ 研究グループ長と吉井 和佳 研究員、藤原 弘将 研究員、中野 倫靖 研究員らは、インターネット上にある楽曲の中身を自動解析できる音楽理解技術注1)を開発し、楽曲の可視化機能注2)やサビ出し機能を使用しながら、より能動的で豊かな音楽鑑賞ができる能動的音楽鑑賞サービス注3)「Songle(ソングル)」(http://songle.jp)を2012年8月29日に一般公開し、実証実験を開始する。

近年、デジタル化された音楽コンテンツの普及によりインターネットなどを通じて多量の楽曲にアクセスできる量的な変化は起きたが、人々が音楽をより深く理解して楽しめるような質的な変化をもたらす技術はあまり開発されていなかった。

今回産総研は独自の音楽理解技術に基づき、楽曲の中身(サビ、ビート、メロディー、コード)を自動解析して「音楽地図」を表示する可視化機能や、代表的で盛り上がるサビなどへ自在にジャンプできるサビ出し機能をもつ音楽鑑賞システムを開発し、誰でも利用できるようにウェブ上のサービスとして公開した。ユーザーは「音楽地図」によって繰り返しなどのさまざまな観点に気づくことで楽曲に対する理解を深め、サビ出し機能によって興味のある箇所を容易に見つけて楽しみながら鑑賞することができる。さらに、自動解析の誤りをユーザーが自発的に訂正できるインタフェースも提供することで、ユーザーの訂正協力によってより正確な「音楽地図」を共有して表示できる仕組みも導入した。

なお、本研究は独立行政法人 科学技術振興機構(JST) 戦略的創造研究推進事業 チーム型研究(CREST)の研究課題(研究代表者 後藤 真孝)の一環として行われた。この成果は、2012年10月25日~26日に産総研つくばセンターで開催する「産総研オープンラボ」にて展示される。

Songle

産総研独自の音楽理解技術を活用した能動的音楽鑑賞サービス「Songle(ソングル)」

<開発の社会的背景>

音楽配信やオンラインストレージなどの普及により、インターネット上の膨大な楽曲はいつでもどこでも視聴できるようになった。そして、曲名やアーティスト名などの書誌情報に基づく音楽情報検索注4)や、過去の視聴履歴などからユーザーの嗜好を分析する協調フィルタリングに基づく音楽推薦注5)が実用化された。こうして多量の楽曲にアクセスできる量的な変化は起きたが、これまでは、単にさまざまな楽曲をいつでもどこでも視聴できるという楽しみ方が中心であり、人々が楽曲をより深く理解して楽しめるような質的な変化をもたらす技術はあまり開発されていなかった。

<研究の経緯>

産業・文化の重要な担い手の1つである音楽を情報処理研究の対象とする音楽情報処理分野は、国内外で活発に研究されている。産総研でも、音楽を自動的に解析できる音楽理解技術や、それを応用した音楽インタフェースなどの幅広い研究を実施してきた。これまでに、従来の受動的な鑑賞とは違う、能動的な音楽鑑賞を可能にする音楽インタフェースの研究に取り組み、それを「能動的音楽鑑賞インタフェース」と名付けて、音楽理解技術によって音楽の聴き方をどのようにより豊かで深くできるかをさまざまな事例により明らかにしてきた。こうした産総研の研究成果の蓄積から、「インターネット上の楽曲の中身を自動解析する音楽鑑賞システム」というアイデアが生まれた。このアイデアに基づくシステムをベータ版注6)として2012年2月より研究者向けに試験公開してきたが、この度、可視化機能、コード進行検索機能、外部埋め込みプレーヤー機能などの諸機能が完成したので、実証実験のために一般公開を開始することとした。

この研究は独立行政法人 科学技術振興機構(JST) 戦略的創造研究推進事業(CREST)「共生社会に向けた人間調和型情報技術の構築」研究領域における研究課題「コンテンツ共生社会のための類似度を可知化する情報環境の実現(研究代表者 後藤 真孝)」の一環として行われた。

<研究の内容>

人々が音楽理解技術の力でポピュラー音楽をより深く理解して楽しめるようにするシステムを開発し、能動的音楽鑑賞サービス「Songle(ソングル)」(http://songle.jp)として公開する。Songleは、以下の3つの特長をもつ。

1.ウェブ上の楽曲の中身を音楽理解技術で自動解析して「音楽地図」として可視化

ユーザーがウェブサイト上で公開されている任意のポピュラー音楽の楽曲(MP3形式の音響信号ファイル)をSongleに登録すると、Songleがその楽曲の中身を
(1)楽曲構造(サビ区間と繰り返し区間)
(2)ビート構造(拍と小節の先頭)
(3)メロディー(歌声の音高)
(4)コード(根音とコードタイプ)
の4つの代表的な音楽的要素について自動解析する。ユーザーがSongleに登録された楽曲を選ぶと、自動解析結果をさまざまな形式で可視化した画面を見ながら、元のウェブサイト上にある楽曲をストリーミング再生して楽しむことができる。可視化画面は、ユーザーが音楽的要素を把握しやすい「音楽地図」を表示する詳細画面(図1)と、再生した楽曲の進行に連動したさまざまなアニメーションを表示するビジュアライザ画面(図2)の2種類がある。これらの可視化により、専門的知識のないユーザーでも、各音楽的要素の存在や要素間の関係、楽曲構成上の意図に気づきやすくなる。例えば、サビの繰り返しやイントロとエンディングの繰り返しなどの楽曲全体の構造を把握したり(サビが例外的に多く繰り返す曲や、サビから始まる曲に容易に気づくことができる)、同じハーモニー(コード進行)なのにメロディーが変化する様子に気づいたり、繰り返すときの歌詞や曲調の変化を聴き比べたりすることもできる。このように、再生に同期して解析結果を「見る」ことで音楽の理解を深めることができる。

2.サビ出し機能、コード進行検索機能、外部埋め込みプレーヤー機能による音楽鑑賞

自動解析結果を利用することで、可視化以外にも音楽鑑賞をより能動的で豊かにする以下のような機能を実現した。
(a)楽曲中で一番代表的な盛り上がる主題の部分である「サビ」のように、楽曲中の興味のある箇所を容易に見つけて聴くことができるサビ出し機能を実現した。通常の再生、停止ボタンだけでなく、楽曲構造に対応した「次・前のサビ区間の頭出し」、「次・前の繰り返し区間の頭出し」ボタンが使用できる(図3)。本来音楽は全て聴き終わらなければどんな楽曲でサビはどこに出てくるのかがわからないが、「音楽地図」によって楽曲を聴く前に構造を把握することができ、興味のある区間を直接クリックして再生するようなランダムアクセスが可能となった。
(b)同一のコード進行をもつ複数の楽曲を聴き比べることができるコード進行検索機能を実現した。曲名やアーティスト名といった書誌情報に基づく従来の音楽情報検索に加えて、新たに、コード名の系列を与えるとそれをコード進行として含む楽曲群を検索・列挙する音楽情報検索が可能となった。
(c)ユーザーが自分のホームページやブログなどの外部のウェブページ内にSongleの小型プレーヤーを埋め込んで、Songle上の楽曲を紹介できる外部埋め込みプレーヤー機能を実現した(図4)。このプレーヤーは楽曲構造の可視化機能と上記のサビ出し機能を備えており、そのウェブページを閲覧した人が手軽に試聴しながらSongleを知ることができる。曲名をクリックすれば、Songle上のその楽曲のページに直接アクセスして利用することができる。

3.ユーザーが自動解析の誤りを訂正できるインタフェースを提供

ユーザーが自動解析の誤りをウェブ上で訂正してサービスの品質向上に貢献できるインタフェースを開発した(図5)。現在の音楽理解技術による解析結果は誤りを含むが、人間が一生かけても聴ききれないような多量の楽曲を処理できる利点をもつ。一方、人間は音楽の内容をより深く理解して記述でき、解析誤りにも気づくことができるが、何もないところから全てを記述するのは長時間を要し限界がある。そこで両者が相補的に力を合わせることで、より的確に楽曲の中身を記述できるようにした。具体的には、音楽再生に合わせてビートやコード、メロディーだけをその場で選択・可聴化する機能を提供し、ユーザーが自動解析の誤りに気づきやすくした。そして、誤りを直接編集したり、自動解析時に求めた候補リストから選んだりして訂正できるインタフェースをウェブ上で実現した。なお、誤りが訂正されると元の自動解析結果は違う色で着色され、履歴が残るような機能も付加してある。これには音楽理解技術の性能が過大評価されるのを防ぐ効果もある。一部の音楽的要素については、訂正結果の機械学習により自動的に性能が向上する機能も提供し始めている。このようにSongleでは、ユーザーの貢献によって即座にサービスの品質が向上し、ユーザー自身が利便性を感じられる独自の仕組みを実現した。

< 今後の予定>

誰でもウェブブラウザから利用できる能動的音楽鑑賞サービス「Songle (ソングル)」の持続的な研究開発・運用を進めていく。今回開発した、楽曲の中身を音楽理解技術で自動解析する音楽鑑賞システムを、産業界と連携して実用化し、音楽情報検索や音楽推薦、音楽配信サービスなど、さまざまな応用に展開していく予定である。現状では、高度な音楽理解技術の存在自体がまだ広く知られておらず、Songleにより認知が広がることが期待される。Songleは歌声を伴うポピュラー音楽であれば任意のウェブサイト上の楽曲(MP3形式の音響信号ファイル)に対応できるが、今後、多数の楽曲を保有するウェブサイトとの連携も進めていく予定である。

<参考図>

図1

図1 楽曲の中身を自動解析して「音楽地図」として可視化した詳細画面の表示例

「音楽地図」は横軸が時間であり、上部の大局的な表示部には、楽曲中の繰り返し構造を可視化した楽曲構造が表示され、最上段にサビ区間、その下の5段にさまざまな長さの繰り返し区間が表示されている。各段の中で、着色されている区間同士が似ている(繰り返しである)ことを表している。下部の局所的な表示部は、上部で選択した区間の拡大表示である。最下部では、小さい三角形が各拍(四分音符に対応するビート)の位置を、大きい三角形が小節の先頭を示す。そのビート構造の上には、メロディーの歌声の音高がピアノロール注7)状に表示されている。その上には、それぞれのコード名がテキストで表示されている(例えば、コード名Ebmは、根音がEbであり、その構成音を示すコードタイプがmであることを意味する)。

図2

図2 楽曲の進行に合わせて解析結果をアニメーション表示するビジュアライザ画面の表示例

 4つの代表的な音楽的要素(楽曲構造、ビート構造、メロディー、コード)に密接に連動して表示内容が動的に変わる。図の左上の幾何学模様が連動して大きく動く表示、右上のピアノロール状の表示、左下の半円状に描かれた音楽的要素の表示、右下の全体を俯瞰した円盤状の表示の4種類の形式を切り替えられる。詳細画面が音楽的要素を把握するためのインタフェースであるのに対し、ビジュアライザ画面は音楽的要素に基づいて動的に生成される表示を楽しんでもらうためのインタフェースとなっている。
図3

図3 サビ出し機能の使用例

 楽曲中の興味のある箇所を容易に見つけて聴くことができるサビ出し機能では、楽曲構造に対応した4種類のボタン「次のサビ区間の頭出し」、「前のサビ区間の頭出し」、「次の繰り返し区間の頭出し」、「前の繰り返し区間の頭出し」で再生位置のジャンプができる。
図4

図4 Songleの外部埋め込みプレーヤーとそれを別のウェブページに埋め込んだ例

 外部のウェブページ内にSongleの小型プレーヤー(図の上部)を埋め込んで、Songle上の楽曲を紹介することができる。これは楽曲構造の可視化機能とサビ出し機能を備えており、サビを手軽に試聴可能である。さらに、埋め込み先のウェブページの背景に、楽曲の再生に連動して変化する視覚的効果(図の下部の背景図形)を付与するオプション機能も埋め込み時に選択できる。
図5

図5 自動解析の誤りを訂正できるインタフェースの画面例

 詳細画面で下のタブを切り替えることで、4つの代表的な音楽的要素の自動解析結果を訂正できる。図の左上のサビ編集では、サビ区間と繰り返し区間の、追加や削除、移動、区間長の修正ができる。右上のビート編集では、拍と小節先頭で異なるクリック音が再生され、誤っていたら候補から選択するか、直接指定して訂正できる。左下のメロディーの編集では、メロディーの音高の合成音が再生されるので、誤っていたらピアノロール上で半音単位の線を引くことで訂正できる。右下のコードの編集では、コードの合成音が再生されるので、誤っていたらコード名をクリックして表示される候補から選択するか、直接コード名をタイプして訂正できる。また、コードの境界も変更できる。以上のように訂正時には解析結果のビート、メロディー、コードが楽曲と共に再生されて可聴化される。こうした可聴化の音自体も、可視化と併せて音楽の理解を深める効果がある。

<用語の説明>

注1) 音楽理解技術
楽曲の中身を自動的に解析することができる技術である。インターネット上の楽曲の多くは、音響信号で表現されている。音響信号は、音楽演奏の音波を記録した信号であるため、音符が並ぶ楽譜とは違って、いつどんな高さの音が鳴っているかは記号で記録されていない。そこで、従来は中身が全くわからない状態のまま、ただの波形として音楽配信や音楽鑑賞のサービスで扱われることが多かった。それに対し、Songleの音楽理解技術は、楽曲の音響信号の主要な中身であるサビ、ビート、メロディー、コードを自動的に解析することを可能にする。
注2) 可視化機能
従来の音楽サービスや音楽ソフトウェアにおける楽曲の可視化機能では、波形や周波数スペクトログラム(周波数の成分を分析した結果)を表示することが一般的で、楽曲の中身はわからなかった。そのため、例えば音楽を試聴しているときに再生位置をサビに変更しようと思っても、どこだかわからず、当てずっぽうで再生位置を変更していた。Songleの自動解析・可視化機能により、楽曲の中身(サビ、ビート、メロディー、コード)が「音楽地図」として図示されるので、地図に導かれて容易に再生位置を変更できる。さらに音楽地図を見れば、普段気づかない楽曲中のさまざまな要素や楽曲の構造に気づくことができ、音楽に対する理解を深めるきっかけを与えてくれる。また、アニメーション表示による可視化はビジュアライザと呼ばれることもあり、従来は波形や周波数成分を反映して表示されていたが、Songleのビジュアライザ画面では楽曲の中身に密接に連動して表示が変化する点が大きく異なる。
注3) 能動的音楽鑑賞サービス
「能動的音楽鑑賞サービス」という用語はこれまではなかった造語であり、Songleはその最初のサービスである。ここでの「能動的」という言葉は、音楽の創作は意味せず、音楽鑑賞を楽しむ上でのあらゆる能動的なインタラクションを意味する。音楽の再生位置を聴き手の意志で次々と変更して好みの箇所を聴いたり、さまざまな楽曲のサビを次々と試聴しながらブラウジングしたりする行為は能動的音楽鑑賞の一例であり、いずれもSongleによって可能になる。
注4) 書誌情報に基づく音楽情報検索
曲名やアーティスト名、ジャンル名のような書誌情報と呼ばれるテキストが、楽曲のファイルには付与されていることが多い。従来の音楽情報検索は、曲名検索のように、この書誌情報をテキスト検索する技術に基づいていることが多かった。Songleでも曲名とアーティスト名の検索には対応しているが、さらに、コード名の系列を検索語として与えて、それをコード進行として含む楽曲群を検索する機能も実現している。今後、Songleの研究成果は、音楽コンテンツに対する多様な音楽情報検索を実現するために応用できる。
注5) 協調フィルタリングに基づく音楽推薦
過去の視聴履歴や評定などからユーザーの嗜好を分析し、それを蓄積することで、あるユーザーと似た嗜好をもつ別のユーザーが好む楽曲を推薦するような音楽推薦が既に実現されている。このようなユーザーの嗜好に基づく推薦技術は協調フィルタリングと呼ばれ、楽曲の中身が一切わからない状態でも機能することから、広く利用されてきた。しかし、まだ誰も視聴していないような新曲には直接適用できないなど、さまざまな限界が指摘されており、楽曲の中身に基づくコンテンツベースの音楽推薦を相補的に用いると効果的である。Songleの研究成果は、そうした音楽推薦を実現するための基盤としても有用である。
注6) ベータ版
開発途上にテストの目的で提供される試用版である。Songleでもこれまでにベータ版を試験公開して不具合を改善してきたが、新たな機能と共に、2012年8月29日に一般公開する。
注7) ピアノロール
ピアノロールとは、横軸が時間、縦軸が音高の2次元平面上で、発音中の部分に着色する表示方法である。いつどの高さの音が鳴っているかが直感的に把握しやすく、メロディーの可視化方法として優れているためSongleでも採用した。

<本件問い合わせ先>

独立行政法人 産業技術総合研究所
情報技術研究部門
上席研究員 兼 メディアインタラクション研究グループ 研究グループ長
後藤 真孝
〒305-8568 茨城県つくば市梅園1-1-1 中央第2
TEL:029-861-5898 FAX:029-861-3313
E-mail:

<JST 戦略的創造研究推進事業に関する問い合わせ先>

独立行政法人 科学技術振興機構 戦略研究推進部
木村 文治
〒102-0076 東京都千代田区五番町7 K’S五番町
TEL:03-3512-3526 FAX:03-3222-2063
E-mail:

<プレス発表/取材に関する窓口>

独立行政法人 産業技術総合研究所 広報部 報道室
〒305-8568 茨城県つくば市梅園1-1-1 中央第2 つくば本部・情報技術共同研究棟8F
TEL:029-862-6216 FAX:029-862-6212
E-mail:

独立行政法人 科学技術振興機構 総務部 広報課
〒102-8666 東京都千代田区四番町5-3
TEL:03-5214-8404 FAX:03-5214-8432
E-mail: