
Faster R-CNN은 객체 탐지(object detection)를 위한 대표적인 딥러닝 모델로, 2015년 Shaoqing Ren 등 연구진이 제안한 “두 단계(two-stage)” 방식의 탐지기입니다. 기존의 R-CNN 계열(Fast R-CNN 등)에서 속도 병목이던 외부의 region proposal(후보 영역) 생성 단계를 신경망 내부로 통합한 것이 핵심입니다. 이름의 “Faster”는 이전 방법들보다 후보영역 생성과 전체 처리 속도가 훨씬 빨라졌다는 의미입니다. 주요 구성 요소와 동작 원리 - 백본(Backbone) CNN: 입력 이미지에서 특징(feature) 맵을 추출합니다(예: VGG, ResNet 등). - RPN(Region Proposal Network): 특징 맵 위에서 앵커(anchor)라 불리는 기준 상자들을 사용해 객체가 있을 만한 후보 영역(Region Proposals)을 빠르게 생성합니다. RPN은 각 앵커에 대해 객체 유무(이진 분류)와 위치 보정(bbox regression)을 예측합니다. RPN의 제안은 클래스 비특이적(class-agnostic)입니다. - RoI Pooling: RPN이 제안한 후보 영역을 고정 크기의 특징으로 변환하여 분류/정밀한 박스 회귀에 사용합니다. (후속 모델에서는 RoI Align으로 개선됨.) - 검출 네트워크(Fast R-CNN 부분): RoI로부터 각 객체의 클래스 분류와 더 정교한 경계상자 회귀(bbox refinement)를 수행합니다. 학습 방식 - 다중 작업 손실(Multi-task loss): RPN과 검출 네트워크는 각각 분류 손실과 박스 회귀 손실을 포함하고, 전체적으로 End-to-end 방식으로 학습할 수 있습니다(논문에서는 교대로 학습하거나 통합 학습하는 다양한 스킴 제시). - 앵커(anchor) 기반 학습: 여러 크기와 종횡비의 앵커를 사용해 다양한 스케일과 형태의 객체를 처리합니다. 장점 - 이전 방법들(Selective Search 등)에 비해 후보 영역 생성이 훨씬 빠르고 통합적임. - 두 단계 구조라서 후보 영역 검증을 별도로 하고, 상대적으로 높은 정확도를 얻음(특히 작은 객체나 정밀한 박스가 중요한 경우). - 다양한 백본과 쉽게 결합되어 성능 향상이 용이함. 단점 및 한계 - 실시간 성능에서는 일단의 일단계(one-stage) 탐지기(예: YOLO, SSD)보다 느릴 수 있음(그러나 정확도는 보통 더 높음). - 설계가 복잡하고 앵커 설계(크기/비율)에 민감할 수 있음. - RoI Pooling의 양자화 문제 등으로 나중에 Mask R-CNN에서 RoI Align으로 개선됨. 응용 및 영향 - Faster R-CNN은 이후 많은 객체 탐지 연구의 기반이 되었고, Mask R-CNN(인스턴스 분할) 등 더 고도화된 모델들의 출발점이 되었습니다. 다양한 응용(자율주행, 영상 감시, 의료 영상 등)에서 여전히 널리 사용됩니다.