METRICA-tech blog

Grouped Convolutionのハイパーパラメータを最適化する「clcNet」を読んでみました

Convolution最適化

インターンの林です。
社内勉強会でclcNetについて発表しました。

概要

clcNet提案
CDG(Channel Dependency Graph)とCRF(Channel Receptive Field)を新たな分析のツールとして使用
グループ化畳み込みに変わり、新たな畳み込みのIGC(Interlaced Grouped Convolution)を使用
ImageNet-1Kデータセットにおいて、既存のモデルより高い計算効率とパラメーター数減少を達成

背景

現在では計算効率の良い畳み込みの手法として、dw 畳み込みやグループ化などが使われている
モバイルデバイスに使えるようなCNNは計算効率とメモリ効率のが重要である
上記の畳み込み手法に少し変更を加え、計算効率を向上させたのがclcNet

CLC (Channel Local Convolution)

出力チャネルの計算が一部の入力チャネルのみに依存している畳み込み
- dw 畳み込み, グループ化畳み込み
CLCの受容野は空間次元とチャネル次元の両方に沿って局所的
- 受容野: ある特徴マップの一画素が集約してる前の層の空間の広がり
- Figure 1で概念的に示している

CDG (Channel Dependency Graph)

チャネルの計算依存性を示す2部グラフ
- Node: チャネル
- Edge: 依存性
- 上のNodeが入力
- 下のNodeが出力を表す
- 出力->入力というように表現される
CDGを使うことで、モデル設計のためのチャネル依存の分析が簡単になる
- 積み重ねたCLCカーネルを、通常畳み込みに近似させるための分析に使う

チャネル受容野 CRF (Channel Receptive Field)

出力チャネルが依存する入力チャネルのサブセット
FCRF (Full Channel Receptive Field)
- 出力チャネルが入力チャネルのすべてに依存している状態
CRFサイズ
- 依存している入力チャネルの数

仮説:

FCRFを達成することは、CLCが通常Convolutionの正確な近似する上で必要である

CGDを使って他のモデルを分析してみる

FCRFが達成されているモデルに使われている畳み込み
- ResNetのbottlenetck structure
- ResNeXt block
- Depthwise Convolution for MobileNet and Xception

FCRFが達成されていないモデルの畳み込み
- dw畳み込み & 1x1畳み込みをグループ化畳み込みに

FCRFが達成されていない
結果、クラス分類において従来よりも低い精度になった
ShuffleNetの論文でも、Shuffleなしのdw & 1x1畳み込みが試され、Shuffleありと比べて精度が下がったと言われていた

IGC (Interlaced Grouped Convolution)

MobileNetやXceptionでdw畳み込みや1x1畳み込みが効果的であると証明された
- だが1x1畳み込みの占める計算量は多い
さらなるコスト効率化のために、1x1畳み込みを変更したい
1x1畳み込みをグループ化畳み込みにする
- Figure 4で示した通り、FCRFもなくなり、精度も下がる
IGC:
- グループ化畳み込みのチャネル依存パターンを変えることでFCRFを実現

CLC Block

IGCとGCカーネルを積み重ねた畳み込みブロック
- 3x3 IGC カーネル
- 1x1 GC カーネル
- Relu
- Batch Normalization

FCRFのルールとコスト最小化

M : input channels
N : output channels
L : intermediate channels
g1: IGC カーネルのgroup parameter
g2: GC カーネルのgroup parameter

CRF(Channel Receptive Field): 出力チャネルが依存する入力チャネルのサブセット CRF size: 依存している入力チャネルの数

IGC カーネルのCRFサイズ : M/g1
GC カーネルのCRFサイズ : L/g2
このCLC BlockがFCRFを達成するためには、GCのCRF size(L/g2)がIGCカーネルのgroup parameter(g1)より大きくなる必要がある
- $ L/g{2} \geq g{1} $ すなわち $ g{1}g{2} \leq L$

コスト (Computational cost)最適化の式

A=9とき最小化されたパラメーター
- A: spatial area of the convolutional kernel
  - A = 9 for 3x3 kernel
モデル

検証

5.1 Classification Accuracy of clcNet

state-of-the-art modelであるMobileNetと比較
a, b, c, d (layer configurations)
精度が良かった2つをclcNet-A, clcNet-B

後ろのlayer(c or d)を増やすことが、前のlayer(a or b)を増やすことよりも、精度が上がることが分かる

5.2 The importance of FCRF(Full Channel Receptive Field)

FCRFの重要性の検証
- IGC(Interlaced GC)カーネルをGCカーネルに変える
  - 計算コストは同じだが FCRFを下げた

5.3 Comparision with Previous Models