インターンの林です。
社内勉強会でSSDを発表しました。

SSDとは

単一ディープニューラルネットワークを使って画像の中の物体を検出する方法
論文ではVGG16にExtra Feature Layersという畳み込み層を加え、物体検出を可能にした
予測時にカテゴリスコアの算出とデフォルトボックスの調整を行う

Contribution

これまでの最先端であるYOLOを超える速度と性能を持つ物体検出方法(SSD)の提案
小さな畳み込みフィルターを使うことで、デフォルトバウンディングボックスのカテゴリスコアとボックスのオフセットを予測させた
異なるスケールの特徴マップから異なるスケールの予想を作り出し、アスペクト比によって明示的に分割した
これらのデザインによって低解像度の画像であっても、シンプルな End-to-End の訓練と高い精度につながり、スピードと精度のトレードオフを解消した
様々な入力サイズをPSCAL VOC COCO, ILSVRCで検証して、最先端モデルと比較した。

1. Introduction

これまでの物体検出との比較

今までの手法
- バウンディングボックスを仮定する
- 各ボックスそれぞれでピクセルや特徴を再サンプル
- 高性能の分類器を適用する
  - 正確だが計算負荷が大きく、リアルタイム物体検出に使うには遅すぎる
SSD
- 初のディープニューラルネットワークベースの検出器
- ピクセルや特徴を再サンプル必要がない
- バウンディングボックスの採用と再サンプル工程を取り除きをしたため、従来より早い

2. The Single Shot Detector (SSD)

SSDのフレームワーク

入力画像と正解ボックスが必要
畳み込みによって、異なるいくつかの(4つくらいの)アスペクト比のデフォルトボックスと正解ボックスを異なるスケール(eg. 4x4 や 8x8)で評価する
マッチしたデフォルトボックスは正、しなかったものは負として扱われる

2.1 モデル

フィードフォワード畳み込みネットワークでバウンディングボックスの集まりとボックスの中の物体のスコアを作り出す
Non-Maximum suppressionによって最終的な値が求められる
- ベースネットワーク (画像分類のアーキテクチャー)
- 補助的な構造
  - 検出のためのマルチスケール特徴マップ
    - 畳み込み特徴レイヤーをベースネットワークの最後尾に追加
    - サイズを大きく減少させて、マルチスケールの検出を可能にした。
  - 検出のための畳み込み予測器
    - それぞれの特徴レイヤーが畳み込みフィルターを使って検出予測を作り出すことができる
  - ディフォルトボックスとアスペクト比
    - それぞれの特徴マップで、デフォルトボックスからのオフセットとクラスのスコアを求める

2.2 訓練

マッチング戦略

- デフォルトボックスはjaccard係数が0.5以上であるものを正解としている

損失関数 = 確信度誤差関数 + 位置特定誤差

$$ x_{i, j}^{p} = \left\{ 1, 0\right\} $$ $x$: カテゴリpにおいて、i番目のデフォルトボックスとj番目の正解ボックスのマッチ度を示すもの $N$: マッチしたディフォルトボックスの数 $l$: 予測されたボックス $g$: 正解ボックス $c$: デフォルトボックスの座標のオフセット ((cx, cy) のように書く) $d$: ディフォルトバウンディングボックス $ω$: 幅 $h$: 高さ $α$: ハイパーパラメーター (実験では１とした)