객체 탐지 모델
자율 주행 자동차부터 콘텐츠 조정에 이르기까지 한 이미지에서 객체와 그 위치를 탐지하는 일은 컴퓨터 비전에서 표준 작업이다.
최신 기법 중 가장 일반적으로 사용되는 두 모델
YOLO You Only Look Once
R-CNN Regions with Convolutional Neural Networks
배경
객체 탐지 object detection 또는 객체 위치 측정 object localization 이라고도 하는 이 프로세스는 한 이미지에서 객체와 그 경계 상자를 탐지한다. 경계 상자 bounding box 는 이미지에서 하나의 객체 전체를 포함하는 가장 작은 직사각형이다.
객체 탐지 알고맂므에서는 일반적으로 이미지를 입력으로 받고 경계 상자와 객체 클래스 리스트를 출력한다. 모델은 각 경계 상자에 대해 그에 대응하는 예측 클래스와 해당 클래스의 신뢰도 confidence 를 출력한다.
약력
역사적으로 객체 탐지는 전통적인 컴퓨터 비전 기법인 이미지 설명자 image descriptors 를 기바능로 한다. 해당 객체가 포함된 몇 장의 사진으로 시작, 해당 설명자는 이미지로부터 추출된다. 그 설명자는 해당 객체의 특정 부분을 나타낸다. 알고리즘이 이 객체를 찾을 때 목표 이미지에서 다시 설명자를 찾으려고 할 것이다.
임지ㅣ에서 객체를 찾기 위해 가장 일반적으로 사용되는 기법은 플로팅 윈도우 floatinh window 다 .이미지의 작은 직사각형 영역이 차례로 검사된다. 가장 일치하는 설명자를 가진 부분이 해당 객체를 포함하는 것으로 간주된다.
이 기법은 이미지를 회전하거나 색이 바뀌더라도 성능에 영향을 주지 않고 훈련 데이터가 많이 필요로하지 않으며 대부분의 객체에 작동한다. 그렇지만 정확도 수준은 낮다.
2010 년대 초반에 들어서야 신경망이 설명자 기법을 매우 큰 차로 능가하기 시작한다. 성능은 알고리즘이 다음 항목에서 얼마나 우수한지를 나타낸다.
- 경계 상자 정밀도 dounding box precision : 정확한 경계 상자를 제공하는가?
- 재현율 recall :모든 객체를 찾았는가?
- 클래스 정밀도 class precision : 객체마다 정확한 클래스를 출력했는가
성능 개선은 모델이 결과를 계산하는 속도가 빨라졌음을 뜻하기도 한다.