研究への情熱映像と取材記事

SHARE

  • Facebook
  • Twitter
  • Google

社会インフラ映像処理のための高速・省資源深層学習アルゴリズム基盤

  • 映像認識
  • 深層学習
  • スーパーコンピュータ

篠田 浩一

(東京工業大学 情報理工学院 教授)

篠田さんがチームリーダーを務めるCREST研究では、深層学習による次世代の映像解析技術の開発が進められている。篠田さんは、深層学習を用いたマルチメディアの認識のメカニズムから、人間の認知の仕組みに迫りたいと考えている。

アーキテクチャとアルゴリズムを融合させたAIプラットフォームで、
超スマート社会を実現する

2016年度に開始した国の第5期科学技術基本計画では、現実空間とサイバー空間とを高度に融合させ、安全かつ快適な社会の実現を目指す「超スマート社会」が提唱されている。その実現を目指して、篠田さんが代表となって2016年にスタートしたCRESTプロジェクトでは、例えばドライブレコーダの映像から人間などが飛び出してくることを直前に予測する、あるいは都市のさまざまな場所に設置された監視カメラの映像から不審な動きをしている人物を即座に検出するなど、社会における高いレベルの安全性を実現するために、映像を高速・的確に処理することを目標としている。

そのためには、機械学習、特に近年目覚ましい進展を見せている深層学習(ディープラーニング)を、目的とする映像処理に上手く使えるような手法を開発しなければならない。そこで篠田さんが目をつけたのが、大量の映像を高速に処理できるスーパーコンピュータのアーキテクチャと深層学習のアルゴリズムを一体化することだ。これによって現在の1000分の1のメモリ容量で、1000倍速く深層学習処理を行うAIプラットフォームを開発しようとしている。そして最終的には、このプラットフォームをオープンにし、企業や研究機関の人たちに、映像や音声などのパターン認識の研究基盤として使ってもらえるようにしたいと考えている。

深層学習は脳の情報処理をモデルにしている。脳では神経細胞が多層構造をとり、いろいろなネットワークをつくって情報を並列に処理している。このような情報処理をコンピュータ上で実現しようという動きは昔からあり、1950年代後半には入力層と出力層の2層からなるパーセプトロンが、1980年代後半にはさらにその間に処理層が加わった3層のニューラルネットがソフト的に実現されかなりの成果を上げたが、複雑な認識はできなかった。そして2006年頃から、複数の処理層をもつ深層学習が実現され、より広くより深い認識能力を得られることが示された。「深層学習が可能になったのは、スーパーコンピュータに代表されるように、ハードウェアの発達により大量のデータを高速に処理できるようになったからです。そして、東京工業大学にはTSUBAMEという世界に誇るスーパーコンピュータがあります。この研究環境を存分に生かそうというのが、発想の源です」と篠田さん。

2017年の秋に稼働を始めたTSUBAMEの3代目「TSUBAME3.0」は、スーパーコンピュータの省エネ性能の世界的ランキング「Green500」で1位を獲得している。そして、そのアーキテクチャは深層学習用に特化しており、AIクラスタとも呼ばれている。まさに今回のプロジェクトに最適なツールだ。これを開発した東京工業大学国際情報センター教授の松岡聡さんと同センター准教授の横田理央さんがアーキテクチャ側の開発に、篠田さんと同大情報理工学院准教授の村田剛志さんが深層学習のアルゴリズム側の開発を担当している。横田さんがスーパーコンピュータの並列処理の基本単位である「ノード」のより効率的な活用をはかり、松岡さんがノード間のデータのやり取りの効率化を目指す。篠田さんはより高速な深層学習のアルゴリズムの開発を担当し、村田さんがネットワークサイズの最小化・最適化を進める。このようにスーパーコンピュータにおける深層学習の4つの要素を垂直統合する体制になっている。「リアルタイムで映像の認識・分析を行うには、ドライブレコーダや監視カメラ上である程度の処理を行うことが必要で、小さいシステムを実現することも必須なのです。そうでないと本体システムとの通信に時間と膨大なコストがかかってしまいます」。

NIST(米国標準技術研究所)が主催しているTRECVIDという映像検索評価のワークショップには、研究開始時点から4人で協力して参加している。誕生日、サンドイッチづくり、タイヤの交換など30種類程度の特定のイベント(出来事)の映像検出を競うもので、この分野で名をはせる大学や研究機関が参加している。そこで1位をとるのが次の課題だと言う。その成果をもとに、ドライブレコーダのデータや監視カメラの映像を実際にどのように処理するかを考えて、AIプラットフォームづくりに邁進したいと篠田さんは考えている。「システムに映像の深層学習をさせるには、映像の各場面の意味のラベル付けが必要ですが、今は人間が行っているので、お金も時間もかかります。最終的にはラベル付けも自動的に行うことができ、少ないラベル付き映像を基にどんどん学習していけるAIプラットフォームを開発したいと思っています」。

*取材した研究者の所属・役職の表記は取材当時のものです。

研究者インタビュー

SHARE

  • Facebook
  • Twitter
  • Google

研究について

この研究は、CREST研究領域「イノベーション創発に資する人工知能基盤技術の創出と統合化(栄藤稔 研究総括)」の一環として進められています。また、CREST制度の詳細はこちらをご参照ください。

  • CREST
  • 戦略的創造研究推進事業 研究提案募集