ML study > Object Detection > Two stage detection
Mask R-CNN
- mask R-CNN 은 그동안의 object detection model이 물체를 box로만 예측하던 것에서 벗어나 pixel단위로 segmentation까지 하여 object detection을 가능하도록 만들었다.
1. Mask R-CNN 동작
-
Mask R-CNN은 ROI pooling 이전의 layer는 Faster R-CNN 구조와 동일하며 이후 mask를 예측하는 branch를 추가하여 segmentation까지 예측가능하게 하였다.
-
이과정에서 기존의 ROI pooling 을 하면 feature map과 ROI 사이에 misalign이 box를 예측할 때는 큰 문제가 되지 않았지만 segmentation에서는 정확한 예측이 어렵게 되는 문제가 있다.
- 따라서 논문에서는 pooling 시에 misalign 된 부분은 단순히 반올림해서 적용하는 것이 아니라 bilinear interpolation 방식으로 위 그림과 같이 ROI와 feature map이 서로 겹치는 비율을 고려해서 pooling을 진행하여 보다 정확한 pooling이 이루어지도록 하였다. 아래 그림은 조금더 직관적으로 ROI align 과정을 표현한 그림이다.
2. Mask R-CNN 결과
-ROI align 적용을 통해 mask mAP 성능 뿐만 아니라 bounding box mAP 성능까지 향상시켰다.
- 다음 그림은 mask R-CNN을 MS COCO dataset에 적용한 그림이며 5 fps로 구동이 가능하다고 한다.
Reference
[1]: Deep Learning for Generic Object Detection: A Survey
[2]: Mask R-CNN 논문
[2]: Mask R-CNN 정리 블로그
댓글남기기