KPNet: Towards Minimal Face Detector

问题

细腻度的尺度估计: 可以理解为预测 N 张响应图, 每一张响应图代表某个尺度的 bin. 作者把人脸大小从 \(2^5\) 到 \(2^11\)分成了60个 bin , 也就是预测60个通道的 ScaleMap.
如果某个人脸的尺度落在某张响应图所在范围上, 那么这个人脸中心位置的响应值则为 1, 但是这样离散的响应图, 不好训. 作者将响应图转变为高斯形态的响应图. 计算如下

其中 \((x_h, y_h)\) 是人脸中心在特征图的位置(经过stride换算), 半径 \(r = \lfloor \frac{b}{10} \rfloor\). 简单理解就是人脸越大, 相应点的半径越大. 这一点也是挺合理的. (直接采用人脸真实大小为半径, 会不会更好呢?)
响应图的训练采用 BCE loss
soft-argmax: 一般响应图得出坐标的方式是去相应最大位置的 x, y 坐标, 即 argmax 操作, 不可导. 作者就用积分的方式, 实际上是一个方形核的核密度估计求取坐标, 这个方法其实很常见, 并不是本文第一次提出.
坐标的loss 采用二范距离