深層学習による動画データからの手元動作認識
公開日:
カテゴリ: 第16回
深層学習による動画データからの手元動作認識
Hand Motion Recognition from Movie Data by Deep Learning
東京大学
出町和之
KazuyukiDEMACHT
Member
東京大学
陳実
ShiCHE
Student-Member
A deep learning model has been proposed to recognize hand action for nuclear security A system has been developed that can automatically recognize hand action from video data acquired by a single depth camera
Keywords Deep Learning, Convolutional eural etwork, Action Recognition, Behavior monitoring
はじめに
福島第一原子力発電所事故は、原子力施設が潜在的にテロの魅力的なターゲットとなる可能性があることを示唆した。TAEA(国際原子力機構)によると、 テロの裔威は ig に示す 種類 の 取、 の取、ダーティーボムの製造、妨害破壊行為に分類されるが、その で 原子力発電所にと ての たる裔威は妨害破壊行為である。さらに、原子力施設関係者を意味する内部裔威者は、枢要区域へのアクセス権や専門知識を有し、妨害破壊行為者として一 の注意が必要である。
1
内部裔威者の妨害破壊行為は通常の保全作業等に紛れ て行われるが、原子力施設の膨大な数の作業員すべてを 人の眼で監視することは現実的でなく、「技術の眼」によ る監視の補完が必要である。とくに、人の動作の大部分を 占める手元動作の自動認識は開発が急がれる技術である。
手には関節が密集しているため手元動作は複雑となり、自動認識には難易度が高い。一般的な手元動作認識の手
の多くはRGB-D カメラという距離画像(D)を得られる
特殊なカメラを使用している。しかし、実際に原子力施設やセキュリティの現場で主に使われているのはRGB(シングルデプス)カメラであり、これらに使用できる手元動作認識技術を新たに開発する必要がある。
そこで本研究では、シングルデプスカメラで取得した動画データから手元の動作を自動認識する手 を、学習の一種である畳み込みニューラルネットワーク
(Convolutional eural etwork, C ) を用いて開発した。
手法
2 1 提案する動作認識アルゴリズム
今回の認識対象とした手元動作は、手を握る、手を開く、親指を上げる、などを含む6 種類である。 ig に、本研究で提案した手元動作認識のフローを示す。
まずは対象となる動画データの各フレームから手元を認識し、動画データを手の関節座標のみのデータに変換する。これによりカメラと手元の位置関係による影響を排除できる。このようにして得られた手の関節座標の連
データを 元 し、C による 学習で、あらかじめ設定した6 種の手元動作のどれかを識別する。
2
2 2 手の関節角度のヒートマップ取得
動画データからの手元データ抽出には、オープンソースプログラムのhand3d 3 を用いた。これにより、シングルデプスカメラで得たデータから片手当たり関節など 6 箇所の三 元座標を取得できる。得られた三 元座標から、各指の第一関節、第二関節および付け根の片手当たり計 箇所の角度を解析的に計算した。
に、撮影された動画のフレーム毎に 箇所の関節の角度を計算し、これを 元 とした。 つの動画は秒当たり30 フレームで構成されるため、関節角度の元 を横に結合することで、 秒の動画から 行X30
の行 データが作成できる。これを、動作識別のためのC における学習データとした。なお、 学習による識別 度の を けるため、各 の 行X30 の行データにランダムノイズを付与し、 つの動画あたり 0 個の学習データを作成した。 ig 3 は 秒間の関節角度行
データをヒートマップとして図示した例である。
3 H j x 1
2 3 畳み込みニューフルネットワーク(CNN)
系 データ解析においては回 ニューラルネットワーク(Recurrent eural etwork, R ) を用いるのが一般的である。しかし人間の動作は さ 動き 一意ではなく、その差異に対するロバストな認識が求められる。C ではデータの絶対値ではなく画像としての構造や分布から特徴抽出を行うため、要件となるロバスト性を満たすことが期待される。
ig に、今回用いたC のアーキテク を示す。畳み込み は二つあり、フィルタのサイズは3X3とした。また、畳み込みにおけるストライドの幅は とした。特徴抽出の後、分類のために全結合 を三 とした。活性化関数にはReLU 関数を用いた。
4 C
手元動作推定結果
学習後の C を用いた手元動作認識結 の 解 をTable に示す。全動作の は0 8 であ た。 的高い 解 が得られた のの、更なる向上が必要である。
T 1 C
CloseThreeFingers
0.901
CloseThumb
0.895
OpenThumb
0.895
PushingWithOneFinger
0.904
Zooming nW thFullHand
0.902
ZoomingOutWithFullHand
0.897
結論
原子力施設における内部裔威者の妨害破壊行為対策のための、動画データから手元動作を認識するための手 を開発した。今後は、学習用データの増加、手首や全身を
み合わ た認識技術の実 、アーキテク の による高速処理の実現などが課題となる。
References
E R Headquarters, "Government of apan 0 Report of the
apanese government to the iaea ministerial conference on nuclear safety the accident at tepcos fukushima nuclear power stations Attachment xi- ," 0
A Krizhevsky, T Sutskever and G E Hinton "Tmage et Classification with Deep Convolutional eural etworks", eural Tnformation Processing Systems ( TPS 0 )
3 Christian Zimmermann and Thomas Brox, Learning to Estimate 3D Hand Pose from Single RGB Tmages University of reiburg,
0 7
T Sainath, 0 Vinyals, A Senior and H Sak, "Convolutional, Long Short-Term Memory, fully connected Deep eural
etworks", TEEE Tnternational Conference on Acoustics, Speech and Signal Processing (TCASSP) ( 0 5)