--.--.-- --:-- | EDIT
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Category: スポンサー広告
Permanent Link | Comment(-) | Trackback(-) | PageTop↑
2013.09.06 19:55 | EDIT
Caltech 256 datasetは物体のカテゴリ分類問題を扱うデータセットであり,その名の通りカリフォルニア工科大学(Caltech: California Institute of Technology)が一般公開している256クラスのデータセットです.

そのCaltech 256 datasetについて,最近(2013年6月開催CVPR2013)の発表では,50.7%の精度を誇っているそうです!(下記論文参照)

L. Bo, X. Ren, D. Fox, "Multipath Sparse Coding Using Hierarchical Matching Pursuit", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013.

ちなみに,Caltech 256 datasetでは各クラスからランダムに30枚の画像を選び出して学習し,残りを識別用の画像として256クラスに分類するという流れで評価します.

この論文ではMultipath Hierarchical Matching Pursuit (M-HMP)と呼ばれる手法を用いて特徴量の表現や学習を実装しているようです.物体認識の分野では,特徴量の取得だけでなく,その後に特徴表現方法も施して識別に有利にするなどの手法が発達しているように思えるので,今後少し勉強してみたいなとも思います.

ここで,学習画像の枚数を変えながら(標準は30枚)学習と識別をした結果,15枚:42.7%,30枚:50.7%,45枚:54.8%,60枚:58.0%となったそうです.当然,学習画像の枚数を増やせば識別性能は上がっていきます.(過学習には注意が必要ですが.)

さらに,調べてみたら"Hao Wooi Lim's blog"に歴代の改良結果が載っていました↓

Multipath Sparse Coding Using Hierarchical Matching Pursuit (CVPR 2013)
Cited 2 times. 50.7%
Additional info: Multipath Hierarchical Matching Pursuit
Link to paper's source code
Link to paper's project page
Learning Subcategory Relevances for Category Recognition (CVPR 2008)
Cited 40 times. 49.5%
Spatially Local Coding for Object Recognition (ACCV 2010)
Cited 0 time. 46.6% ± 0.2%
Additional info: Multi-scale SIFT features extracted every 4 pixels.
Link to paper's project page
Link to paper's source code
On Feature Combination for Multiclass Object Detection (ICCV 2009)
Cited 312 times. 45.8%
Additional info: LP-β
Link to paper's project page (Contains results, source code and pre-computed features)
Image Classification using Random Forests and Ferns (2007)
Cited 378 times. 45.3%
A Binary Classification Framework for Two-Stage Multiple Kernel Learning (2012)
Cited 5 times. 44.8%
Efficient Learning of Sparse, Distributed, Convolutional Feature Representations for Object Recognition (ICCV 2011)
Cited 19 times. 42.05%
Additional info: CRBM K=4096
In Defense of Nearest-Neighbor Based Image Classification (CVPR 2008)
Cited 442 times. 42%
Additional info: NBNN (5 descriptors)
Locality-constrained Linear Coding for Image Classification (CVPR 2010)
Cited 446 times. 41.19%
Local Naive Bayes Nearest Neighbor for Image Classification (2011)
Cited 17 times. 40.1%
Sparse Spatial Coding: A Novel Approach for Efficient and Accurate Object Recognition (ICRA 2012)
Cited 7 times. 37.08% ± 0.36%
Caltech-256 object categoriy dataset (2007)
Cited 554 times. 34.1%
Linear spatial pyramid matching using sparse coding for image classification (CVPR 2009)
Cited 621 times. 34.02%
Kernel codebooks for scene categorization (ECCV 2008)
Cited 224 times. 27.17%

最初の頃は30%にも到達していなかったんですね.
ランダムに256クラスを分割すると約0.39%の精度ですから50%まで来たのは凄い進歩です.
でもまだまだ上がっていきそうですし,Attributeなど違う方向への派生も今後ありそうです.

[参考]
Hierarchical Matching Pursuit

L. Bo, X. Ren, D. Fox, "Multipath Sparse Coding Using Hierarchical Matching Pursuit", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013.

Caltech 256 dataset

Hao Wooi Lim's blog
スポンサーサイト
2013.09.06 02:44 | EDIT
今回は,PAMI2011から論文紹介です.

A. Gilbert, J. Illingworth, R. Bowden, “Action recognition using mined hierarchical com- pound features”, IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI), Vol.33, No.5, pp.883-897, 2011.
と題した行動理解に関する手法を説明します.

筆者のAndrew GilbertさんはSurrey大学の研究員であり,コンピュータビジョン・パターン認識・データマイニングを専攻して人物追跡,行動理解やメディア画像検索などの問題に取り組まれています.
自分のやっていることや分野が近いのでフォローさせて頂いています.

[Abstract]
The field of Action Recognition has seen a large increase in activity in recent years. Much of the progress has been through incorporating ideas from single-frame object recognition and adapting them for temporal-based action recognition. Inspired by the success of interest points in the 2D spatial domain, their 3D (space-time) counterparts typically form the basic components used to describe actions, and in action recognition the features used are often engineered to fire sparsely. This is to ensure that the problem is tractable; however, this can sacrifice recognition accuracy as it cannot be assumed that the optimum features in terms of class discrimination are obtained from this approach. In contrast, we propose to initially use an overcomplete set of simple 2D corners in both space and time. These are grouped spatially and temporally using a hierarchical process, with an increasing search area. At each stage of the hierarchy, the most distinctive and descriptive features are learned efficiently through data mining. This allows large amounts of data to be searched for frequently reoccurring patterns of features. At each level of the hierarchy, the mined compound features become more complex, discriminative, and sparse. This results in fast, accurate recognition with real-time performance on high-resolution video. As the compound features are constructed and selected based upon their ability to discriminate, their speed and accuracy increase at each level of the hierarchy. The approach is tested on four state-of-the-art data sets, the popular KTH data set to provide a comparison with other state-of-the-art approaches, the Multi-KTH data set to illustrate performance at simultaneous multiaction classification, despite no explicit localization information provided during training. Finally, the recent Hollywood and Hollywood2 data sets provide challenging complex actions taken from commercial movie sequences. For all four data sets, the proposed hierarchical approa- h outperforms all other methods reported thus far in the literature and can achieve real-time operation.

アブストを読んでみると,多数の特徴点を抽出,その周囲で特徴量を記述します.さらにここではデータマイニングの知識を適用して行動に特有の,頻出パターンを抽出して識別の効率化や高精度化を図ろうという内容です.

もうちょっと詳しく説明すると

- ハリスコーナーによる特徴点抽出(LaptevらのSTIP: Space-time interesting pointsは密な特徴点探索が出来ないと指摘)
- XYTそれぞれの2次元空間(XY,XT,YT)に対して特徴点を抽出,1フレームから1,500点以上の特徴点を抽出.
- 特徴点からオリエンテーションを抽出して特徴量とする
- マイニングする空間として,①取得したスケール(3×3,6×6,12×12,24×24,48×48pixelsのパッチ),②XY,XT,YTのチャネル,③抽出したオリエンテーション を基にした空間内を探索
- さらには空間的だけでなく時系列の近傍(3×3×3)も含めた5次元の空間内をマイニング
T = {00221, 08116, 13216, 17116, 20111} (左から順に)①空間的・時系列近傍のx成分 ②同y成分 ③取得したスケール番号 ④XY XT YTのチャネル ⑤オリエンテーション

データマイニングにはアソシエーションルール探索を適用していますが,高速化手法であるApriori Algorithmを実装して特徴量空間を探索しています.(下記論文参照)

R. Agrawal, T. Imielinskij, A. Swami, “Mining Association Rules between Sets of Items in Large Databases”, ACM SIGMOD International Conference on Management of Data SIGMOD, pp. 207–216, 1993

実験の結果,KTH datasetにおいて95.7%という,2011年当時としては最高性能を達成しています.それだけでなく,処理速度も同データセットにおいて24fpsという処理速度を実現したことが評価されています.

マイニングには時間がかかりますが,効果的な特徴量のみを使うということに対しては効果がありそうです.高精度な識別性能,高速な処理を実現するためには,特徴量や探索する空間をいかにつくるかというセンスが問われそうです.データマイニングの問題では一般的に言われていることですが,「何を探索するか」や「何の情報を取り出したいか」の戦略が非常に重要です.情報を取り出しても「それがなんなのか?」についても考察する必要があります.

そういう意味で,戦略的に上手く特徴を探索して高精度だけでなく高速な処理という双方を両立させた例と思います.

[参考]
A. Gilbert, J. Illingworth, R. Bowden, “Action recognition using mined hierarchical com- pound features”, IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI), Vol.33, No.5, pp.883-897, 2011.

R. Agrawal, T. Imielinskij, A. Swami, “Mining Association Rules between Sets of Items in Large Databases”, ACM SIGMOD International Conference on Management of Data SIGMOD, pp. 207–216, 1993

Andrew Gilbert (著者ページ)
 | ホーム | 
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。