慶應義塾大学

慶應義塾大学青木義満研究室

慶應義塾大学青木義満研究室

english

研究内容

パターン認識・画像センシングの新領域開拓

深層学習は画像パターン認識において欠かせないものとなっています.当研究室では,単に既存の深層学習モデルを用いるだけでなく,新たなアーキテクチャや学習手法,内部を可視化・理解するための試みなど,更なる認識精度向上や人と親和性の高い認識システムの実現に向けた研究を進めています.また,画像計測・認識・生成を含む新しい画像センシングを追求し,その新領域開拓を目指しています.

Fast Soft Color Segmentation

※Accepted to CVPR2020 : Arxiv , OSS
この研究では,一枚の画像を似た色のみを含む複数のRGBAのレイヤーに分解する問題を扱う.我々が提案するニューラルネットワークベースの手法は,既存の最適化ベースの手法に比べて30万倍高速に分解できる.その高速な分解の利点により,ビデオの色の変更などの新しい応用を実現する.

自然言語指示文による物体画像の属性変換

画像編集ソフトウェアの出現により,画像編集は活発に行われるようになった.これによってわずかな形状や色の調整などの単純な画像編集は容易となったが,人間の顔などの複雑な物体の画像を自然に編集するには依然として高度な技術が必要となる.本研究では,人間の顔画像に着目し,その属性を,英語の指示文のみを条件として変換することを目的とする.自然言語の指示文を条件とした顔画像の属性変化に基づく画像変換という問題設定を評価する評価指標を新たに設け,提案手法の評価を行う.

Segmentation のためのスーパーピクセル上でのGraph Convolutional Neural Networks

CNNを用いた画像領域分割の欠点として,プーリング層によるダウンサンプリングが原因で空間的な情報が欠落してしまい物体の輪郭付近での領域分割精度が低下する点があった.そこで,プーリングによる情報の欠落を防ぐ別のアプローチとして,スーパーピクセル上でのグラフ畳み込み(Graph Convolution)を提案した.また,グラフ畳み込みの拡張として,より効果的に受容野を広げるDilated Graph Convolutionを提案した. HKU-ISデータセットを用いた領域分割の課題において,提案手法が同一構成の従来のCNNを上回る性能を達成した.

Super pixel pooling

CNN分類器を用いた画像識別における顕著性マップ生成

一般的に画像をCNN に入力し特定の出力が得られた場合に,なぜそのような出力が得られたかを説明することは難しい.本研究では,Generative Adversarial Networksの枠組みを応用した顕著性マップの生成手法を提案する.このシステムでは2つのニューラルネットワークを競わせながら学習する.1つ目のネットワークは,画像識別を行うように学習する.2つ目のネットワークは,ある画像が1つ目のネットワークに入力されてうまく画像識別ができる場合に,この画像には似ているが1つ目のネットワークに入力した場合に間違った結果を出力するような画像を生成するように学習する.2つ目のネットワークがこのような画像を効率的に生成するためには,1つ目のネットワークの画像識別において大切な画像領域を大きく変化させた画像を生成すれば良い.このような学習を行うことで,画像識別において重要な画像領域が明示的に出力可能となるため,これを顕著性マップとして捉えることができる.

GANを用いた画像識別顕著性マップ生成

GANによるカラー調整と画像補完の同時実行

本研究では,カラー調整と画像補完で自然な貼り付け合成を行う問題を解決するために,コンテキストを考慮したカラー調整を行いつつ画像補完を行う手法を提案する.挿入するオブジェクト画像を明示的に補完領域に出現させるようにするため,コンテキストを考慮した補完にCNNとGenerative Adversarial Network (GAN)を利用し,背景画像全体からコンテキストに関する特徴を抽出する.さらにそのコンテキストの特徴を,画像補完のためだけでなく,カラー調整にも利用することで,コンテキストを考慮したカラー調整を行う.このようにして,カラー調整と画像補完の課題を同時に解決するネットワークを実現する.

cGANによる360度画像の補完

本研究では,360度画像の一部の領域を入力として,残りの領域をGANsで補完するという新しい問題設定に取り組んだ.正距円筒図法で表現される360度画像に固有の歪みを捉えることに有効な構造として,直列かつ並列に並んだDilated Convolution層を含むGeneratorを提案する.さらに,データ拡張や問題の簡単化のために入力画像に対して行う操作を提案する.これらの提案手法によってGeneratorが自然な360度画像を生成することができる.この研究は,GANsによって360度空間の見えない領域を予測するという難問への初めの一歩となる.

圧縮センシングを用いたEpsilon Photography再構成による撮影後の画像制御

従来、撮影者はカメラにおける数多くのパラメータを撮影時に選択しなければならない.ライトフィールド撮影は,フォーカス位置と撮影視点について撮影後の画像制御を可能にしたが、解像度が低く、専用ハードウェアが必要であり,フォーカス位置や絞りの大きさの完全にフレキシブルな復元はできない.本研究は,従来カメラを用いて、フォーカス位置や絞りの大きさ,露光時間,ISOなどのパラメータを変えて連射撮影された10数枚の撮影画像から,あらゆるパラメータで撮影された画像を復元する技術に関するものである.たとえば,あらかじめ設定されたパラメータによる連写画像を入力とし,高ダイナミックレンジなFocus-Apertureスタックを完全に再構成する.

圧縮Epsilon Photographyの概念図
あるシーンを計画的に決められたパラメータによる数枚の連写撮影によって、撮影後の自由な画像制御を実現する.左上のように限られたパラメータで撮影された数枚の画像から、右上のように全パラメータで撮影されたスタックを復元する.

人物動作解析・行動認識技術

当研究室では,人の形状や動作を高精度かつ効率的にモデリングする表現の獲得と,機械学習による人物認識の研究を進めてきました.映像中からの頑健な人物の検出・追跡,姿勢推定,動作解析,行動認識・予測技術に関する研究,及びその多方面への応用を進めています.

人と物体の存在確率を用いた日常行動認識

数分間・数時間と中長期に行われる日常行動では複数の細かいPrimitiveな行動が多く含み,動画のみの行動認識は難しい.本研究では,人と物体の存在確率マップを生成するシステムと,中長期に渡る人の日常行動データセットを構築し,人が「いつ」「どこで」「何と」「どのように」行動を行ったかの情報を特徴として利用し,同データセットで評価した.人と物体の存在確率を推定して特徴マップ化したHuman-Object Mapsを利用することによって中長期日常行動を高精度に認識することができた.

工場生産ラインにおける詳細行動認識

本研究では生産ラインの作業現場おける詳細行動認識を課題とし,各作業を更に細かく分割した動作素片単位における作業の認識を目指した.作業映像の特徴として,主に腕回りのみによる詳細な作業によって構成されているため,画像全体の情報から作業ごとの違いを捉えることは難しい点が挙げられる.そこで,腕の動きを捉えるための上半身の姿勢情報と,道具や手の動きを捉えるための手元情報に注目し,これらを組み合わせた手法を提案した.自作した少数データセットにおいて高い認識率とともに作業者,作業環境の変化に対する頑健性の確保を実現した.また作業分析ツールの作成により,認識結果の可視化も行なった.

CNNを用いた距離学習による人物再同定

畳み込みニューラルネットワークにより動画像中の人物の類似度を学習することにより人物再同定を行う新たな手法を提案した.各人物動画は畳み込みニューラルネットワークにより特徴抽出がなされ,埋め込みベクトル同士の距離が直接人物間の距離指標に対応するようにユークリッド空間へと写像される.Entire Triplet Lossと呼ばれる改良されたパラメータ学習手法により,ミニバッチ内で取りうる全てのTripletの組が考慮された上で一度のパラメータの更新が行われる.このようなパラメータ更新手法の簡素な変更によりネットワークの汎化性能が大きく向上し,埋め込みベクトルがより人物毎に分離し易くなった.評価実験により,国際的なデータセットにおいて最先端の再同定率を達成した.

畳み込みニューラルネットワークのアーキテクチャ

追跡軌跡の再同定を用いたオンライン複数物体追跡

オンライン処理による複数物体追跡の既存手法の多くは,動画の毎フレームで物体検出を行うことによって得られる物体矩形を時系列的に割り当てていくtracking-by-detectionのアプローチを取っている.しかし,既存手法では遮蔽などによって物体検出器で未検出となった対象を追跡することはできなかった.そこで,追跡軌跡の再同定により一度消失した対象を再び追跡状態へと移行させる手法を提案する.物体の高次元な見え特徴を表す埋め込みベクトルを畳み込みニューラルネットワークを用いて取得し,追跡軌跡同士の埋め込みベクトルの距離によって追跡軌跡の再同定判定を行う.このとき,ネットワークの入力に領域分割によって得られた物体のマスク画像を用いることで,背景変化に頑健な再同定判定を行うことが可能である.また,追跡軌跡ペアの再同定判定は低次元なベクトル同士の距離に基づいて行われるため,再同定判定を行うことによる計算コストの増加は僅かである.

オンライン追跡処理手法の概要

行動遷移映像における時系列行動認識

本研究では,複数行動が連続的に遷移していく映像を対象とした行動認識を課題とし,階層的なLSTMを用いて多様な時系列解析を行うことを提案した.また,環境変化に頑健な姿勢情報を中心としながら,周辺情報を付加的に学習させることと,姿勢特徴によって周辺特徴のフィルタリングを行うことで周辺特徴をより有効に活用することを提案した.データセットを用いた行動遷移映像における行動認識課題を対象に,従来手法からの改善を得ることが出来た.

周辺特徴のフィルタリングを用いた行動認識システム

キャリブレーションフリー視線推定

既存の視線推定手法は,赤外線LEDや距離センサ等,特別な装置を用いたり,事前のキャリブレーション作業が必要なものが多かった.本研究では,社会での実利用に即した視線推定手法の実現へ向けて,キャリブレーションフリーかつカメラに対して広範囲な頭部位置で利用可能な注視点推定手法を提案している.解像度に依存しない頑健な虹彩追跡手法を基盤とし,顔特徴点検出,虹彩追跡,注視点推定から構成される視線推定手法により,広範囲空間内におけるキャリブレーションフリーな視線推定が実現可能であることを示した上で,様々な分野への応用を目指している.

キャリブレーションフリー視線推定システム

「動画-テキスト技術」のペアを利用した詳細で複雑な行動の検索・検出

動画-テキスト記述間の正しい対応づけを学習する「動画-テキストのペアからの検索・検出」について研究しています. 説明文章を対応する動画範囲にgroundingできるネットワークが学習できれば、複雑かつ詳細で合成的な行動に対応する動画範囲(および各単語に対応する局所範囲)も検出・検索できるようになります.また「主語-動詞-目的語(subject-predicate-object)間のインタラクションや、物体・人物・行動間の「関係」も加味した、より複雑な動画-テキスト認識が可能となります.
これまでの研究事例:
(1)「少し長めの複数モーメントで構成される1動画 – 各モーメント時間範囲のテキスト記述N個」(例:ActivityNet Captions, Charades-STA)において,テキスト記述を入力クエリとして,該当するモーメントの時間範囲の検出を行う「動画文章グラウンディング(別名:動画モーメント検索)」に関する研究を行っている.
(2) 「短めの1行動動画- 1記述 」ペアからの動画全体の検索においては.(例:MSR-VTTデータセット),動画-テキスト間の検索に用いた単語の該当部分をCAMのようにハイライトも同時に行える「解釈性の高い」動画-テキスト検索手法の研究を行っている.

Retrieving and Highlighting Action with Spatiotemporal Reference

※Accepted to ICIP2020 : Arxiv
本研究は、深層学習を用いたクロスモーダル検索の枠組みを用い、人間の行動が動画中のいつ・どこで起こるかを可視化する Action Highlighting を提案する。このタスクに対し我々は、動画と説明文のペアから、動詞・名詞の共起性に着目し、動画中の局所領域に対して表現学習を行い、各時空間ブロックに適切な埋め込みを 3D CNN を用いて学習する。これらの学習された特徴表現を用いることで、新たな動詞を参考に Action Highlighting を行うことが可能となる。

Temporal Action Proposal からのモーメント・文章間マッチング

ビジョンアンドランゲージは視覚的な動画像情報と自然言語から得られる言語情報を融合したマルチモーダルな研究分野である.その中でも本研究では,トリミングされていない動画の一部分を説明した自然言語による入力文章を受けて,動画内からその対応した場面の時系列的なローカライズを行うタスクに取り組んだ.1ステージに既存のTemporal Action Proposalを利用して時間領域候補群を獲得し,2ステージにVideo Grounding using Natural Languageによるアプローチで最適な時間領域を決定するランキング問題として解決を図るproposal and rankな2ステージ型のモデルを提案した.

スポーツ映像解析

スポーツにおける映像からの定量的なプレー解析は,選手の競技レベルやモチベーションの向上,コーチング支援,新たな放送映像コンテンツ提供において重要になっています.当研究室では,様々なスポーツフィールドにおいて実際に活用可能なスポーツ映像解析の手法及びシステムについて研究を進めています.

テニスの試合映像におけるショット検出

本研究は,テニスの試合中に行われる選手の「ショット」をフレームレベルで特定する手法を提案する.ディープラーニングにより,選手,ラケット,ボール,それぞれの動きを考慮することで,従来行われていたボールの検出に依存する手法よりも高精度にショットの検出を可能とした.本技術は,テニスに限らず卓球,バレーボールといったボールのショットを行うスポーツへの応用が期待できると同時に,物体を触る,物体を叩くといった行動に対して適応することで,ユーザーインターフェースとしての活用が考えられる.

ショット検出の例
(左下図が手前の選手, 右下図が奥の選手のショット検出結果)

ラグビー映像解析システム

本研究では,特徴量設計方式によるボール検出/追跡と,ディープラーニング方式による選出検出/追跡を行うハイブリッド型映像解析により,一つのカメラ映像からボール/選手の移動軌跡を精度良く二次元フィールド上にマッピングする技術を開発した.また,ディープラーニングによる自動的なプレー分類を行い,これまで人手で行われていた主要プレーのタグ付け作業の自動化を検討した.本技術は,ラグビーに限らず様々なスポーツへの活用が可能であるだけでなく,産業分野などスポーツ以外の用途への応用が期待されている.

ラグビー映像解析システム
(選手・ボールの移動軌跡記録,プレー推定による自動タグ付け機能)

アメリカンフットボール映像解析システム

チームスポーツの中でも特に選手間遮蔽が大きく,プレー中の選手動作パターンが多いアメリカンフットボール映像において,選手位置やフィールド全体の動き情報といったGlobal Motion Featureを用いることで,プレー時間判定を行う.さらに,プレー開始 / 終了位置といった特徴的2地点の位置を算出し,アメリカンフットボールのプレーパターンであるPass, Run, Kickの分類を行った後,試合解析上重要な情報を持つボール軌跡を,ボール自体の検出を行わずに推定する手法を実現する.これにより,プレー時間 / プレー分類 / ボール軌跡情報を取得し,試合解析データベースを自動作成することが可能となる.

アメリカンフットボール映像解析システム

スイマートラッキングシステム

競泳映像を対象に,水しぶきなどのノイズに頑健で撮影環境に依存しない選手追跡・ストローク推定手法を提案する. 映像中から選手の検出・追跡を行い,検出された選手画像をCNNに入力することで,選手画像の特徴量を取得する.さらに,得られた特徴量からTemporal sequenceを作成し,MultiLSTMに入力することでストロークの推定を行う.最終的に得られた選手位置やストロークの情報をもとに選手の速さやストロークの可視化を行い,放送映像に重畳表示することで,Live感を増幅させることを狙っている.

Multi-LSTMを用いたストローク推定
(左:ストローク信号の推定,右:速度・ストロークの可視化結果)

知能ロボティクス

これまでのロボットは,丁寧な指示に基づき,様々なサービスを行ってきました.当研究室では,実時間での人物行動認識,物体・環境認識技術と,過去の行動ログなどを用い,シーンや人物の状況を察し,様々な”気付き”を得ながら,適切に振る舞う知能ロボットの研究開発を進めています.

定常配置の学習に基づく物体の操作方法推定

不自然な配置の物体を自然な配置に復元するために必要な操作を推定する手法を提案する.提案手法は物体の操作を推定するための特別な層を配置したエンコーダ・デコーダ型のネットワークである.定常なシーンのレイアウトを与えるだけで,Self-supervisedに物体の配置変更手順を学習可能である.実画像に対する実験において,入力シーンを定常な状態に変更するための操作をリアルタイムで生成できることを確認した.

操作タスク入力に基づく物体の機能部推定

ロボットが単一の物体に対して,複数の扱 い方を行うための,物体のタスクに応じた機能部の記述方法である,タスク指向な機能部を提案した.アフォーダンスと異なり,タスク指向な機能部では,物体に対してタスクごとに機能部が存在するため,単一の物体に対し複数の扱い方を記述できる. 加えて,タスク指向な機能部を学習するためのデータセットの作成し,その推定方法を提案した.1200枚6000ラベルを含む自作のデータセットにおいて mean IOUは0.80を達成した.

Tactile Logging:人間動作解析に基づく物体表面への操作履歴の記述手法

RGB-D動画として撮影された人間による道具操作のデモンストレーションを解析する手法を提案する.提案手法では,人間の姿勢と操作対象の物体の3次元的な位置姿勢を追跡しながら,物体に発生するインタラクションを推定する.この結果を物体の3Dモデルの表面に時系列的な使用履歴(Tactile Log)として記録する.Tactile Logは物体の理想的な使用方法を顕在化するための新しいデータ表現であり,ロボットアームによる”自然な”道具の把持や取り扱い動作の生成に利用することが可能である.

生成されたTactile logの例.左があるフレームにおけるトラッキング中の対象物であり,右がこのフレームで記録された使用履歴である.接触が起きた部分に対応するクラスのログが記述される.

機能属性の空間配置に着目した類似形状物体の6自由度姿勢推定

対象物と同一の3Dモデルが存在しない場合おいても動作可能な6自由度姿勢推定手法を提案する.同一カテゴリの道具同士は,意匠が異なっていたとしても各部位の役割(機能属性)の配置は共通的であると考えられる.提案手法ではこれを姿勢推定の手がかりとする.機能属性の配置間の整合性と形状同士の整合性を同時に最適化することによって,姿勢推定の信頼性が向上することを確認した.実利用時には対象となるカテゴリの物体の3Dモデル1つにさえ機能属性や把持方法を関連付けておけば,そのまま現物の物体を取り扱うことが可能なので,対象物ごとにモデルデータを用意する必要がなくなるという利点がある.

提案手法の入出力.(入力:機能属ラベル付き点群,出力:姿勢変換パラメータ)

実世界センシング

画像センシング技術は,実世界の様々な場面での活用が期待されています.当研究室では,自動車,医療など,様々な分野における新たな画像センシング技術の活用を目指しています.

車載イベントカメラによるオプティカルフロー推定

イベントカメラを使ったオプティカルフロー推定のための,車の運動特徴と拡張焦点 (Focus of Expansion:FOE)に関する性質を利用した,車載カメラシーンに特化した正則化を提案する.FOEはカメラの並進軸と画像平面の交点で定義され,自車の運動による周囲環境物のオプティカルフローから回転による成分を除いた時,オプティカルフローはFOEから放射状になるという特徴がある.提案する正則化は,この特徴を用いてオプティカルフローの向きに制約をつけるものである.手法の途中で推定する回転パラメータを評価することで,この正則化の有用性を示した.

左:イベントカメラの出力(黄緑が-の変化,赤が+の変化を表している)
右:オプティカルフロー推定結果(色相がフローの向きを表し,明度が大きさを表している)

イベントカメラを用いた照明条件やぶれに頑健な二次元コード認識

工場の自動化において生産ラインでのQRコードの読み取りが重要になっているが,照明条件やベルトコンベアの速さによってブレが生じてしまう問題がある.この問題に対し,イベントカメラは輝度の変化を画素毎に非同期に捉えるカメラで,高時間分解能やハイダイナミックレンジなどの優れた特徴を持つ.本研究では,画像をQRコードとアフィン変換によって表現し,画像空間より制約がかかったQRコード空間で最適化を行うことで,イベントデータからQRコードロバストに推定する手法を提案した.

背面モアレ画像からの脊柱配列推定による側弯症スクリーニング

本研究では,X線被曝のない被験者の背面モアレ画像を入力とし,全自動で側彎症スクリーニングに必要なCobb角,およびVR角を算出する手法を提案している.モアレ画像とレントゲン画像を用い,レントゲン画像から専門医が脊柱の特徴点座標を抽出したものを教師データとしてCNNの学習を行うことで,モアレ画像のみから高精度に脊柱配列座標を推定する手法,および脊柱配列情報から自動的にCobb角,VR角を算出する方法を提案している.独自に構築したデータセットを対象に,提案手法の有効性を示した.現在,背面の3Dスキャンデータからの3次元脊柱配列推定手法について検討している.

Aoki Media Sensing Lab.

Keio University
Dept. of Electrical Engineering, Faculty of Science and Technology

3-14-1 Hiyoshi, Kohoku-ku, Yokohama, Kanagawa

223-8522, Japan

Copyright © 2018 Aoki Media Sensing Lab. All Rights Reserved.
トップへ戻るボタン