機械学習の効率化
Non-Deep Active Learning for Deep Neural Networks
Active Learningとは,教師データを作る際にラベル付けされるべき最も代表的なサンプルをサンプリングすることで,ラベル効率の高いアルゴリズムを設計することである.本研究ではタスクモデルの出力結果から,最も情報量の多いラベル付けされていないサンプルを導出するモデルを提案する.タスクは分類問題,マルチラベル分類とセマンティックセグメンテーション問題の三つを扱う.本モデルは不確実性指標生成器とタスクモデルで構成されている.ラベル付きサンプルでタスクモデルを学習させた後,ラベル無しサンプルをそのタスクモデルに予測させる.その予測結果から不確実性指標生成器がラベル無しサンプルごとの不確実性指標を出力.不確実性指標の高いサンプルを情報量が多いとみなし,サンプルの選択を行う.複数のデータセットを用いた実験の結果,本モデルは従来のActive Learning手法よりも高い精度を得ることができ,実行時間を最大約10分の1に短縮することに成功した.
