Mask R-CNN
Faster R-CNN모델의 확장 버전,
각 바운딩 박스에 대해 픽셀 마스크를 추가로 생성했다.
따라서 물체마다 클래스 추정 확률과 바운딩 박스를 얻는 것뿐만 아니라 바운딩 박스 안에 들어 있는 물체의 픽셀을 구분하는 픽셀 마스크도 얻을 수 있다.

목표는 인스턴스 분할을 위한 프레임 워크를 개발하는것,
인스턴스 분할은 이미지의 모든 객체를 정확하게 감지하는 동시에 각 인스턴스를 정확하게 분할해야 하므로 어렵다.
따라서 객체 탐지의 고전적인 컴퓨터 비전 작업의 요소를 결합한다. 목표는 개별 객체를 분류하고 경계 상자를 사용해서 각 픽셀을 지역화하는 것이고, 목표는 객체 인스턴스를 구별하지 않고 고정된 범주 세트로 분류하는 것
R-CNN 의 확장,
분류 및 경계 상자 회귀 분석을 위해 기존 분귀와 병렬로 각 관심 영역(RoI) 에서 분할 마스크를 예측하기 위한 브런치를 추가한다. mask 브런치는 각 RoI 에 적용되는 작은 FCN 으로 픽셀 대 픽셀 방식으로 분할 마스크를 예측한다.
mask R-CNN 은 구현 및 훈련이 간단하여 설례를 유연하게 한다. 그리고 mask 분기는 작은 계산 오버헤드만 추가하므로 빠른 계산이 가능하다.
마스크 브런치를 적절하게 구성하는 것이 중요하다.
가장 중요한 것은 Faster R-CNN 은 네트워크 입려고가 출력 사이의 픽셀 대 픽셀 정렬을 위해 설계 되지 않았다는 점,
RoIAlign 은 마스크 정확도를 향상시킨다.
마스크와 클래스 예측을 분리하는 것이 필수적이라는 것을 알게 되었다. 클래스간 경쟁 없이 각 클래스에 대해 이진 마스크를 독립적으로 예측하고 네트워크의 RoI 분류 브런치를 사용하여 범주를 예측한다.
대조적으로 FCN 은 일반적으로 분할과 분류를 결합하는 픽셀당 다중 클래스 분류를 수행하며 인스턴스 분할에 대해 제대로 작동하지 않는다.
R-CNN
The Region-based CNN 경계상자 객체 감지에 대한 지역 기반 CNN 접근 방식은 관리 가능한 수의 후보 객체 영역을 관리하고, 각 RoI 에서 독립적으로 CNN 을 평가하는 것,
R-CNN 은 확장하여 RoIPool 을 사용하는 특성 맵에서 RoI 에 attending 하여 빠른 속도와 더 나은 정확도를 보인다.
Faster R-CNN 은 Region Proposla Network 로 attention mechanism 을 학습하여 이 스트림을 발전시켰다.
Instance Segmentation : R-CNN 의 효과에 의해, 인스턴스 분할에 대한 많은 접근 방식은 분할 제안에 기반한다. 이전 방법은 상향식 segments 에 의존했다.
DeepMask 및 이후 작업은 segment 후보를 제안하는 방법을 배우며 이는 Fast R-CNN 에 의해 분류된다.
이러한 방법에서 분할은 인식보다 느리고 정확도가 낮다.
경계 상자 제안에서 segment 제안을 예측한다음 분류하는 복잡한 cascade 를 제안, 대신 이 방법은 마스크와 클래스 레이블의 병렬 예측을 기반으로 하여 더 간단하고 유연하다.
Mask R-CNN 의 개념 : faster R-CNN 은 각 후보 객체에 대해 클래스 레이블과 경계 상자 offset 의 두 가지 출력을 가지고 있다. 여기에 객체 마스크를 추가하는 세 번째 브런치를ㄹ 추가한다. 그러나 추가 마스크 출력은 클래스 와 박스 출력과 구별되므로 훨씬 미세한 공간 레이아웃을 추출해야 한다.
Faster R-CNN : 두 단계로 구성,
RPN(Region Proposal Network) 라고 하는 첫 번째 단계는 후보 객체 경계 상자를 제안한다.
두 번재 단계는 각 후보 상자에서 RoIPool 을 사용해 특징을 추출하고 분류 및 경계상자 회귀를 진행한다.
Mask R-CNN : 동일한 1 단계 RPN 을 사용하여 동일한 2단계 절차를 채택, 두 번째 단계에서는 동시에 마스크 R-CNN 이 각 RoI 에 대한 이진 마스크도 출력한다.
Mask Representation : 마스크는 입력 객체의 공간 레이아웃을 인코딩한다. 따라서 연전히 연결된 레이어에 의해 불가피하게 짧은 출력 벡터로 축소되는 클래스 레이블 또는 box offset 과는 달리 마스크의 공간 구조 추출은 픽셀 대 픽셀 대응으로 해결될 수 있다.
구체적으로 FCN 을 사용하여 각 RoI 에서 m*m 마스크를 예측한다. 이를 통해 마스크 브런치의 각 레이어는 공간 차원이 없는 벡터 표현으로 축소하지 않고 m*m 객체 공간 레이아웃을 유지할 수 있다.
이렇나 픽셀 대 픽셀 동작은 픽셀 단위 공간 대응을 잘 유지하기 위해 작은 특성 맵인 RoI 기능이 잘 정려되어야 한다. 이것은 RoIAign 레이어를 개발하게되었다.
RoIAlign : RoIPool 은 각 RoI 에서 작은 특성 맵을 추출하기 위한 표준 작업 부동 소수 RoI 를 양자화한 다음, 이는 양자화된 공간 빈으로 세분화되고, 마지막으로 각 빈에서 다루는 특징 값이 집계된다.
RoIPool 의 harsh 한 양자화를 제거하는 RoIAign,
RoI 경계 또는 빈의 양자화를 피한다. 이중 선형 보간을 사용하여 각 RoI 빈에서 정규적으로 샘플링된 4개 위치에서 입력 특성의 정확한 값을 계산하고 이를 집계한다. (최대 또는 평균)

양자화가 수행되지 않는 한 결과가 정확한 샘플링 위치 또는 샘플링된 포인트 수에 민감하지 않다는 점에 주목,