機械学習の効率化

Proto-Adapter: Efficient Training-Free CLIP-Adapter for Few-Shot Image Classification

Paper(https://www.mdpi.com/1424-8220/24/11/3624)

大量のデータを取得することが困難な応用先において、少数データ学習による画像認識が必要とされる。大規模なvision-languageモデルであるCLIPは、任意のクラスの画像をゼロショットで認識することができる一方で、下流タスクに対する性能には改善の余地が存在する。我々は、少数の学習データを用いてCLIPを下流タスクへ適応させる新たな手法であるProto-Adapterを提案する。本手法はクラス毎のプロトタイプ表現を用いて軽量なアダプターを構築することで、最小限の追加コストで下流タスクの性能を大幅に改善することが可能である。11種類の画像認識ベンチマークを用いた実験により、提案手法の有効性を確認した。

MaskDiffusion: Exploiting Pre-trained Diffusion Models for Semantic Segmentation

MaskDiffusionは、学習済みの拡散モデルを活用した、追加の訓練やアノテーションを必要とせずにオープンボキャブラリーのセマンティックセグメンテーション手法である。我々は、MaskDiffusionが細かい固有名詞ベースのカテゴリーを含むオープンボキャブラリーを扱う際に優れた性能を発揮することを実証し、セグメンテーションの応用範囲を拡大する。MaskDiffusionは、Potsdamデータセット(+10.5mIoU)やCOCO-Stuff(+14.8mIoU)など、他の同等の教師なしセグメンテーション手法と比較して定性的、定量的に大きな改善を示している。

Arxiv: https://arxiv.org/abs/2403.11194
Code : https://github.com/Valkyrja3607/MaskDiffusion

TAG: Guidance-free Open-Vocabulary Semantic Segmentation

我々は、トレーニング、アノテーション、ガイダンスを必要としないオープンボキャブラリーセマンティックセグメンテーションを実現する新しいアプローチ、TAGを提案する。TAGは、CLIPやDINOのような事前に訓練されたモデルを利用し、追加の訓練や密なアノテーションなしに、画像を意味のあるカテゴリにセグメンテーションする。外部データベースからクラスラベルを取得し、新しいシナリオに適応する柔軟性を提供する。TAGは、PascalVOC、PascalContext、ADE20Kにおいて、クラス名を指定しないオープンボキャブラリのセグメンテーションで最先端の結果を達成している。

Non-Deep Active Learning for Deep Neural Networks

※Accepted to Sensors(2022): Paper

Active Learningとは,教師データを作る際にラベル付けされるべき最も代表的なサンプルをサンプリングすることで,ラベル効率の高いアルゴリズムを設計することである.本研究ではタスクモデルの出力結果から,最も情報量の多いラベル付けされていないサンプルを導出するモデルを提案する.タスクは分類問題,マルチラベル分類とセマンティックセグメンテーション問題の三つを扱う.本モデルは不確実性指標生成器とタスクモデルで構成されている.ラベル付きサンプルでタスクモデルを学習させた後,ラベル無しサンプルをそのタスクモデルに予測させる.その予測結果から不確実性指標生成器がラベル無しサンプルごとの不確実性指標を出力.不確実性指標の高いサンプルを情報量が多いとみなし,サンプルの選択を行う.複数のデータセットを用いた実験の結果,本モデルは従来のActive Learning手法よりも高い精度を得ることができ,実行時間を最大約10分の1に短縮することに成功した.

Aoki Media Sensing Lab.

Keio University, Dept. of Electronics and Electrical Engineering
Faculty of Science and Technology

3-14-1 Hiyoshi, Kohoku-ku, Yokohama, Kanagawa, 223-8522, Japan

Copyright © Aoki Media Sensing Lab. All Rights Reserved.
トップへ戻るボタン