Grouped Convolutionのハイパーパラメータを最適化する「clcNet」を読んでみました
インターンの林です。
社内勉強会でclcNetについて発表しました。
概要
- clcNet提案
- CDG(Channel Dependency Graph)とCRF(Channel Receptive Field)を新たな分析のツールとして使用
- グループ化畳み込みに変わり、新たな畳み込みのIGC(Interlaced Grouped Convolution)を使用
- ImageNet-1Kデータセットにおいて、既存のモデルより高い計算効率とパラメーター数減少を達成
背景
- 現在では計算効率の良い畳み込みの手法として、dw 畳み込みやグループ化などが使われている
- モバイルデバイスに使えるようなCNNは計算効率とメモリ効率のが重要である
- 上記の畳み込み手法に少し変更を加え、計算効率を向上させたのがclcNet
CLC (Channel Local Convolution)
- 出力チャネルの計算が一部の入力チャネルのみに依存している畳み込み
- dw 畳み込み, グループ化畳み込み
- CLCの受容野は空間次元とチャネル次元の両方に沿って局所的
- 受容野: ある特徴マップの一画素が集約してる前の層の空間の広がり
- Figure 1で概念的に示している
CDG (Channel Dependency Graph)
- チャネルの計算依存性を示す2部グラフ
- Node: チャネル
- Edge: 依存性
- 上のNodeが入力
- 下のNodeが出力を表す
- 出力->入力というように表現される
- CDGを使うことで、モデル設計のためのチャネル依存の分析が簡単になる
- 積み重ねたCLCカーネルを、通常畳み込みに近似させるための分析に使う
チャネル受容野 CRF (Channel Receptive Field)
- 出力チャネルが依存する入力チャネルのサブセット
- FCRF (Full Channel Receptive Field)
- 出力チャネルが入力チャネルのすべてに依存している状態
- CRFサイズ
- 依存している入力チャネルの数
仮説:
- FCRFを達成することは、CLCが通常Convolutionの正確な近似する上で必要である
CGDを使って他のモデルを分析してみる
- FCRFが達成されているモデルに使われている畳み込み
- ResNetのbottlenetck structure
- ResNeXt block
- Depthwise Convolution for MobileNet and Xception
- FCRFが達成されていないモデルの畳み込み
- dw畳み込み & 1x1畳み込みをグループ化畳み込みに
- FCRFが達成されていない
- 結果、クラス分類において従来よりも低い精度になった
- ShuffleNetの論文でも、Shuffleなしのdw & 1x1畳み込みが試され、Shuffleありと比べて精度が下がったと言われていた
IGC (Interlaced Grouped Convolution)
- MobileNetやXceptionでdw畳み込みや1x1畳み込みが効果的であると証明された
- だが1x1畳み込みの占める計算量は多い
- さらなるコスト効率化のために、1x1畳み込みを変更したい
- 1x1畳み込みをグループ化畳み込みにする
- Figure 4で示した通り、FCRFもなくなり、精度も下がる
- IGC:
- グループ化畳み込みのチャネル依存パターンを変えることでFCRFを実現
CLC Block
FCRFのルールとコスト最小化
- M : input channels
- N : output channels
- L : intermediate channels
- g1: IGC カーネルのgroup parameter
- g2: GC カーネルのgroup parameter
CRF(Channel Receptive Field): 出力チャネルが依存する入力チャネルのサブセット CRF size: 依存している入力チャネルの数
- IGC カーネルのCRFサイズ : M/g1
このCLC BlockがFCRFを達成するためには、GCのCRF size(L/g2)がIGCカーネルのgroup parameter(g1)より大きくなる必要がある
- $ L/g{2} \geq g{1} $ すなわち $ g{1}g{2} \leq L$
コスト (Computational cost)最適化の式
A=9とき最小化されたパラメーター
- A: spatial area of the convolutional kernel
- A = 9 for 3x3 kernel
- A: spatial area of the convolutional kernel
モデル
検証
5.1 Classification Accuracy of clcNet
- state-of-the-art modelであるMobileNetと比較
- a, b, c, d (layer configurations)
- 精度が良かった2つをclcNet-A, clcNet-B
- 後ろのlayer(c or d)を増やすことが、前のlayer(a or b)を増やすことよりも、精度が上がることが分かる