본문 바로가기

논문 Review

High Performance Visual Tracking with Siamese Region Proposal Network(Siamese-RPN)

728x90

오늘은 Siamese-RPN에 대하여 정리해보도록 하겠습니다.

밀리테크 연구 과제에 적용하기 위해 해당 내용을 깊이 이해하기 위해

노력해보겠습니다.

Siamese-RPN은 Computer Vision 분야에서 매우 중요한 역할을 다하였고,

이를 응용한 다양한 모델도 꾸준히 등장하였습니다.

그럼 이제 본격적으로 Siamese-RPN에 대하여 정리해보도록 하겠습니다.

논문의 아이디어는 크게 어렵지 않은데 논문을 읽기가 참 어려운 논문인것 같습니다 ㅜㅜ

핵심 아이디어는 요약에 정리하였으니 요약을 먼저 보시고 읽어보시면 좋을 것 같습니다.

oneshot-detection과 관련된 부분은 좀 더 찾아보고 추가해야될 것 같습니다.... 


1. Introduction

 Siamese-RPN은 template branchdetection branch로 이루어져있으며, large data를 활용한 off-line 학습방식을 택하고 있다. Siamese-RPN은 먼저 첫번째 frame에서 examplar를 찾고 변화하는 영상에서 목표하는 대상과와 examplar를 비교하여 tracking을 진행한다. 이때 one-shot detection 방식을 사용하여classification과 regression이 동시에 일어난다. (뒤에서 Siamese-RPN의 구조에 대하여 설명하면서 이에 대하여 구체적으로 언급하겠습니다!) 

Siamese-RPN의 동작 방식은 두가지에 이점이 있다. 첫번째, Siamese-RPN은 off-line 학습이 이루어져 방대한 양의 학습 데이터를 처리하기에 유리하다는 이점있습니다. 두번째로, region propsal sunebtwork는 정확한 바운딩 박스의 스케일과 비율을 예측하였습니다.  

 

3.  Siamese-RPN framework

siames-RPN은 위의 사진과 같이 simese Network와 Region Proposal Network로 이루어져 있다. 또한 Resion Proposal Network는 classification과 regression 두 파트로 이루어져있다. 

   3.1 Siames feature extraction subnetwork

siamese Network는 템플릿 프레임과 디텍션 프레임으로 구성되어 있다. 템플릿 프레임은 처음 input으로 들어온 이미지에서 타겟을 추출한 것이며 디텍션 프레임은 현재의 프레임에서 타겟을 추출한 것이다. 각각의 프레임은 CNN(수정된 Alexnet)을 통과(템플릿 : φ(z), 딕텍션 :  φ(x) )하는데 해당 CNN의 파라미터는 두 프레임 모두 서로 공유한다. 따라서 두 CNN은 동일한 transformation을 한다.

 

  3.2  Region proposal subnet

 

Resion Proposal subenet은 supervision과 pair-wise correlation 파트로 구성된다. 먼저 supervision에 대하여 살펴보면 

φ(z)는 classification과 regression으로 분리되어 들어가는데 이때 채널을 각각 2k , 4k  배 한다. 또한 φ(x)는 채널 수 변경 없이 그대로 classification과 regressiond으로 분리되어 들어간다. 

이후 pair-wise correlation을 수행하는데 이는 템플릿 프레임이 딕텍션 프레임의 커널이 되어 convolution 연산을 수행하는 것을 말한다. 이때 손실함수로는 Faster R-CNN에서 사용한 손실함수를 그대로 사용한다.(classification : cross-entropy loss, regression: smooth L1 loss) 

※ classification은 해당 타겟의 레이블을 분류하는 영역이고 regression은 각 anchor에 대하여 loss를 비교하여 가장 적절한 bounding box를 찾는 영역이다.

 

   3.3 Training phase : End-to-end train Siamese-RPN

템플릿 프레임과 딕텍션 프레임은 모두 동일한 영상에서 추출된다. 또한 SGD를 사용하여 end-to-end 학습을 진행한다. 여기서 siamese subnetwork의 경우에는 ImageNet을 통해 pretrain을 진행한다. 또한 tracking task에서는 detection task보다 더 적은 anchor을 사용한다. 이때 anchor은 동일한 scale을 가지며 각 anchor의 비율만 다르게 한다. 또한 positive, negative samples을 학습에 모두 이용한다.

 

4. Tracking as one-shot detection

.......

6. 결론

제안된 siamese-RPN은 방대한 dataset을 활용하여 end-to-end offline train을 실시한다. 제안된 모델은 box refinement procedure을 통해 boundingbox의 크게 향상 시켰다. one-shot detection을 통해 online학습을 진행하였다.(이에 대한 이해가 부족합니다...)

또한 여러 실험에서 매우 이상적인 수행능력을 보여줬습니다.

 

요약

Siamese-RPN은 동일한 동영상에서 추출된 템플릿 프레임이 딕텍션 프레임을 훑으며 클래스를 분류하고 bounding-box를 찾는 모델이다. bounding-box를 찾기 위해 미리 준비된 다양한 크기의 anchor을 사용하고 각 anchor을 모두 대입해 타겟 딱 맞게 anchor을 수정한다.

 

반응형