最近の研究成果
音響情報を用いた人物姿勢推定
音響情報を使用した3次元姿勢推定のための新規フレームワークを提案した.
提案手法は主に
①TSP信号を用いたセンシング
②音響特徴量(Log Mel Spectrum, Intensity Vector)の作成
③1次元CNNを使用した関節座標回帰ネットワーク
の3つのパートから構成されている。音響信号が人の身体で反射した際の振幅の変化や到来方向を捉えることで関節点の3次元座標を高精度で取得することが可能になった.

イベントベースオプティカルフロー推定のための自己教師あり学習によるノイズ除去
イベントカメラは画素ごとの輝度変化を非同期かつ高い時間分解能で出力する.
時空間のイベントを局所的に線形だと仮定し,平面にフィッティングすることでnormal flowを推定することができる.
しかし,イベントにはノイズが多く含まれ,外れ値によってフィッティングが悪化するという問題がある.
これに対し,3次元構造を捉えるニューラルネットワークでノイズかどうかを判定する仕組みを導入し,サンプリングをしながら自己教師あり学習を行う手法を提案した.
ルールベースのイベントの選択に対して,推定フローの精度が向上した.

イベントカメラによるオプティカルフローとエゴモーション推定
イベントデータは従来の画像データと性質が大きく異なり、特に非同期的で時空間的な特性を持ちます。したがって、例えば近年の画像ベースのディープラーニングをそのまま適用することが必ずしも良いとは限りません。我々の研究では、この時空間的特性を詳細に分析し、さまざまなデータセットやシーンで高精度を達成するエゴモーション推定やオプティカルフロー推定手法を開発しています。特にオプティカルフロー推定では、コントラスト最大化法を拡張する形で、最適化ベースの手法で他の機械学習手法を上回る性能を達成しました。

効率的な3DCG背景制作のための360度画像の周辺補完
360度画像は,3DCG制作において効率的にシーンを制作するために,全周囲を表現する背景画像として利用されます.本研究では,1枚の通常画角の画像を入力として,その周囲を補完することで,360度画像を生成する問題に取り組みます.Transformerを用いた提案手法は,先行手法の結果と比べて,より高解像度で自然な見た目の出力画像を得られます.さらに,一つの入力に対して,多様な結果画像を出力することが可能なため,利用者は多くの選択肢を得られます.このようにして,本研究は利用者の効率的でオリジナリティのある3DCG制作の支援を目指しています.

完全合成画像での学習による文書画像の影除去
文書画像に映り込んだ影の除去は,デジタル化された文書の質向上に重要なアプリケーションである.近年の研究では多くの深層学習ベースの影除去手法が提案されており,これらは影がある画像,影のない画像の集合に対して学習する.これらの一般的な教師あり学習手法では,ペアとなる文書画像の大規模なセットが必要であるが,データセットを作成するためには膨大なコストがかかる.そこで本研究では3DCGレンダラを用いて,実際の文書のキャプチャを必要とせず,大規模かつ多様なデータセットを作成する.実験では,提案したデータセットのみで学習したディープニューラルネットワークが実データに対して良好な性能を発揮し,また,事前学習に用いることで性能に向上があることを示した.

動的シーングラフ生成における物体と関係性の同時検出
動的シーングラフとは,動画における各シーンにおいて物体と物体間の関係性をグラフ構造で詳解することで動画内の包括的な認識を実現する枠組みである.従来は,検出した物体を元に関係性を検出する2段階処理の手法が一般的であったが,このような手法では関係性検出器が物体検出器に依存しており,推論の処理速度がボトルネックとして懸念される.本研究では,物体と関係性を並行して同時に検出することで,物体検出器と関係性検出器の相互学習を実現しつつ,処理速度を向上させる.

Non-Deep Active Learning for Deep Neural Networks
Active Learningとは,教師データを作る際にラベル付けされるべき最も代表的なサンプルをサンプリングすることで,ラベル効率の高いアルゴリズムを設計することである.本研究ではタスクモデルの出力結果から,最も情報量の多いラベル付けされていないサンプルを導出するモデルを提案する.タスクは分類問題,マルチラベル分類とセマンティックセグメンテーション問題の三つを扱う.本モデルは不確実性指標生成器とタスクモデルで構成されている.ラベル付きサンプルでタスクモデルを学習させた後,ラベル無しサンプルをそのタスクモデルに予測させる.その予測結果から不確実性指標生成器がラベル無しサンプルごとの不確実性指標を出力.不確実性指標の高いサンプルを情報量が多いとみなし,サンプルの選択を行う.複数のデータセットを用いた実験の結果,本モデルは従来のActive Learning手法よりも高い精度を得ることができ,実行時間を最大約10分の1に短縮することに成功した.

マルチモーダルな手指データによる変形性関節症の検出
世界中で高齢化が進む中、高齢化に伴って発現リスクの高まる関節疾患である変形性手関節症(OA)に罹患する人が着実に増えている.。現状のOA診断は訓練された医師によるエコー診断やX線診断で行われており、患者の負担軽減や診断の効率化を可能にする技術が必要になっている。本研究では、慶應大学病院で新たに集めた200人以上の患者のビデオ、RGB 画像、サーマル画像の3つのモーダルによって構成されるデータを用いて、手指の関節点単位で OAを自動的に検出するパイプラインを提案した。手指のOAを関節単位で診断する研究は本研究が初である。

距離画像を使用した側弯症診断
近年、モアレカメラの製造販売が中止になったことにより、モアレ画像からの側弯症診断が難しくなった。本研究では距離画像の前処理でモアレ画像、擬似モアレ画像、bilateral 相関画像を作成することにより、距離画像の特徴を強調させた。 前処理を行った画像で深層学習を用い、脊椎配列を推定した。距離画像からの推定結果より、前処理を行なった画像からの推定結果が精度高いことが確認できた。特に距離画像から復元したモアレ画像の推定結果が精度高い。
