--.--.-- --:-- | EDIT
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Category: スポンサー広告
Permanent Link | Comment(-) | Trackback(-) | PageTop↑
2014.11.26 12:55 | EDIT
A. Gilbert, et al. "Data Mining for Action Recognition", in ACCV2014.

コンピュータビジョンとデータマイニングの相性が良い,という一例を示します.もともと機械学習手法を共有している場面も多々あり,当然といえば当然なのですが特に特徴空間のマイニングに適用すると有効な特徴を選択可能な上,必要な部分集合だけを抜き出すことができるので高速化にも繋がります.

Andrew Gilbertは数年に渡り特徴空間内のマイニングを研究してきた人で,今回もデータマイニングの頻出アルゴリズムであるAprioriアルゴリズムを適用して特徴空間内からノイズを省き,識別に有効な次元のみを抜き出すことに成功しています.特徴量を評価するときに使用されるのがSupportとLiftという指標で,その特徴が空間内でどれくらいの頻度を持つか,さらにその特徴が本当に信頼できるかといった点で見ています.

マイニングする特徴空間はDense Trajectories [H. Wang et al., CVPR2011/IJCV2013]を適用して,100万の特徴ベクトルの空間内から数百の特徴次元に落とし込んでいます.実験では,同じ行動においてはほぼ類似の位置から特徴を取得していることが判明しました.例として,握手する際には腕の先端や歩いているときの足の部分などといった感じで類似特徴やその共起性が保たれているといえます.

Aprioriアルゴリズムではデータマイニングの分野ではかなりベーシックな手法でありますが,それを応用してコンピュータビジョンの分野で恩恵を受けるところに利点があります.実験で見せている結果は人が見て納得する特徴を示していますが,その裏には言語化することが難しいけれども,識別に有効な特徴というのはあると思います.もちろん場面により有効な特徴は変わりますが,人が選別するだけでなく,データから導き出された特徴を使う方が良い場合も多数あるでしょう.
スポンサーサイト
2014.11.25 23:50 | EDIT
J.C.Niebles, H. Wang, L. Fei-Fei, “Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words”, in IJCV2008.

トピックモデリングを用いた行動認識特徴量の分解であり,学習ステップと識別ステップに分けられます.

学習ステップ:特徴量にはDollarらのCuboid Feature[Dollar, PETS2005]を適用する.Cuboid Featureはxyt空間におけるxy特徴点のt方向特徴点追跡とその周辺領域からの特徴記述である.Bag-of-words(BoW)化した特徴量をトピックモデリングの入力とする.トピックモデリングでは基本的に非ゼロのBoWの番号を入力としており,各トピックに含まれるWord番号が出力として返却される.(例:Topic1: BoW1, BoW2, Topic2: BoW2, BoW3) あらかじめCuboid Featureにより構成されたBoWをトピックモデリングにより解析して各トピックとWord番号を分解しておく.この論文では,各トピックがそれぞれの行動の特徴的な動作(ここでは行動 > 動作として扱う)として抽出される.

識別ステップ:入力ベクトルvが入力された時にどのトピックに一番似ているかの判断を行い認識を行う.入力ベクトルは学習ステップと同じくCuboid FeatureをBoW化したベクトルである.トピックモデルにより分解された特徴は例として「腕を上下に振る」や「歩行時の足の往復」等,プリミティブな要素を抜き出している.一番の特徴的な動作要素を抜き出すことにより,余計な特徴の評価をする必要がなく,精度を向上させている.

ここで評価されているデータセットであるKTH datasetでは6種類の行動(walking, jogging, running, boxing, hand waving, hand clapping)であり,どれも簡単な動作要素により構成されているため,特徴も分解しやすく精度が上がったとみられる.この論文で使用されている他のデータセットについても同じことが言える.


現在の行動認識の特徴からすると,比較的スパースでありノイズも多少なりとも含まれているものの,それをトピックに分解してベストマッチする動作要素のみで比較するというかなり上手く設定されている手法だと感じました.ノイズの除去や有効な特徴量での比較を同時に達成して,特徴量の部分集合適用でより効果的な手法としているところに強みを感じます.Nieblesらは2006年に初期版の論文を出していますが,IJCVのジャーナル版ではトピックモデルにpLSAだけでなくLDAを適用しても同じような結果が得られることや,特徴量の評価を重点的にやっているようですね.

2014.11.25 23:15 | EDIT
最近のサーベイはMendeleyを用いてオンライン上で論文を共有し,ラップトップやiPadから引き出して読んでいます.

海外に行く機会が増えてからというもの,欧米の研究者(特に,上位大学の博士課程以上)に触発されてもっと読みたいと感じていました.彼らは一年に数百(トップクラスは300〜700くらい?)と,半端なく論文を読むので,それに負けないようにとMendeleyを使って読んでいます.

数年前まではフォルダで論文を管理し,限界を感じていたもののスタートアップが面倒で切り替えをためらっていましたが,取り入れてみると一ヶ月もせずに移行ができました.今では論文管理サービスなくては読めないくらいです.

Mendeleyはデスクトップ版とweb版があり,自分のアカウント上にて同期や他のユーザとの共有もできます.2GBまでの無料版と使う量に合わせて有料版が用意されています.
2014.11.08 17:19 | EDIT
ECCV2014のワークショップ,2nd Workshop on Computer Vision for Road Scene Understanding and Autonomous Driving (CVRSUAD)にて面白い論文が出ていたので共有します.

この10年間の「画像ベースの歩行者検出」の成長の歴史をまとめた論文を,MPIIのRodrigo Benensonがまとめていました.

論文中のFigure1を見ると,2004年時点の手法としてViola-JonesのHaar-like特徴量と2014年の手法であるkatamari-v1特徴量の比較をして,精度が上がっていると指摘しています.

(Figure1を見て)もう少し具体的に改善点を言うと,
- スケールへの対応
- 複雑背景下での検出
- オクルージョンハンドリング
- 形状が似ている物体への誤検出の低減(人物領域の中でも脚領域のみを人物として検出してしまうことはよくあることでした)
が挙げられます.

下の画像を見てみると,精度の改善が一目瞭然です.ちなみに,%はmiss-rateなので,小さいほど精度が良いことを示します.INRIA training,Caltech-USA trainingはそれぞれのデータセットでの学習,Other trainingはCaltech-USAの拡張版(画像を増やした?)だそうです.違う場面における学習では精度が上手く出ないことを述べていて,やはり同じドメイン,そしてさらに学習画像を良好にした場合ではさらに精度が出るということも示しています.それを考慮しても,最高精度を出した手法は著しく精度が上がっていると位置づけています.

pd_eccvw

結論には,チューニングされた歩行者検出Big3 (deformable part models, decision forests, deep networks)の精度はあまり変わらないとのことです.
(DPM, decision forests and deep networks are based on different learning techniques, their state-of-the-art results are surprisingly close.)
2014.11.08 16:36 | EDIT
Junsong Yuanの研究室から発表された論文であり,CVPR2012で発表された"Mining Actionlet Ensemble..."のジャーナル版です.

Kinectにより得られた3次元姿勢情報Pと人物がインタラクションしている物体Oの情報により行動を認識するが,マイニングによりdiscriminativeな特徴を抽出します.予め有効な特徴量を求めておくことにより,余分な特徴量を取得する必要がないため,高速な処理を実現します.180種類のactionletを作成した場合には5.23秒,対して全ての候補を処理に作成した場合には同じ環境に対して307秒かかると述べています.

Local Occupancy Pattern (LOP)は3次元格子状にヒストグラムを構成して累積する手法であり,Fourier Temporal Pyramidにより時系列の構造的な行動による特徴を捉えます.特徴のマイニングにはAgarwalらのAprioriによるマイニングを適用して有効な特徴量を抽出します.

実験では各データセット(CMU MoCap(98.13%), MSR-Action3D(88.2%), MSR-Daily Activity 3D(86%), Cornell Activity(94.12% in S-Person, 74.70% in C-Person), Multiview 3D Event(88.34% in C-Subject, 86.76% in C-View) dataset)においてそれぞれ高い精度を実現している.

Junsong Yuanの研究室では行動検出や行動認識だけでなく,物体認識やユーザインタラクションについても取り組んでいます.ACCV2014FG2013でもチュートリアルしているように,最近では目覚ましい成果を挙げていると言えるでしょう.
 | ホーム | 
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。