2023. 11. 25. 11:00ㆍThesis/Paper Reading
1. Introduce
[NAS & REID]
MSInet은 신경망 아키텍처에서 feature 찾는 것(NAS) 을 개선한 것으로,
REID는 학습할 객체의 특성을 기반으로 유사성을 보는데, (코사인,L1L2등) 유사성의 스코어에 따라 계산하고 객체를 재식별하여 이미지를 비교함.
[Twins Contrastive Mechanism (TCM)]
- Unbinding Categories
- TCM는 학습 및 검증 데이터 세트의 클래스를 분리 하는 메커니즘으로 시작합니다. ReID에서는 학습 세트와 검증 세트가 서로 다른 카테고리를 가질 수있음
- 즉 고정되어있는 클래스가 아닌 TCM은 훈련 및 검증 세트에서 더 넓은 클래스의 중첩을 동적으로 조정하여 클래스간의 차이를 일반화하는 메커니즘.
- Providing Appropriate Supervision
- Unbinding Categories를 통해 학습 과정에서 적절한 Supervision을 손실 함수(loss function)를 통해 모델에 전달함
- Unbinding Categories를 통해 학습 과정에서 적절한 Supervision을 손실 함수(loss function)를 통해 모델에 전달함
[Multi-Scale Interaction (MSI)]
Multi-Scale Interaction (MSI)는 여러 스케일의 정보를 활용(스케일을 늘릴때는 interporation(양선형 이미지보간법등)
하여 객체식별에 도움을 줌. 즉, 객체의 고유한 특성들을 식별함
- object identification
- negative similarity
- 위 이미지의 예로 msinet 같은경우 10개의 쿼리 이미지가있는데, 범퍼와 후드의 nagative 유사성을 쿼리이미지마다 객체간의 벡터로 잡아 정확하게 식별함
[Spatial Alignment Module (SAM)]
- Spatial Alignment
- Spatial Alignment Module (SAM)은 객체 식별시에 같은이미지의 다른 측면이미지(보는관점이다를수도)의 공간적 정렬을 최적화 및 일관성향상시켜줌. (한정된 파라미터증가)
- Attention
- 이미지에서 이미지의 attention부분을 인식하여 attention을 향상시킴
2. method
2. MSLNet - Twins Contrastive Mechanism
MSInet Summary
Figure 2. The model structure of the proposed MSINet. The input can be either person or vehicle. Inside a cell, the input is separated to two branches, with different receptive field scales. The interaction module exchanges information between two branches. Architecture search automatically select the most appropriate interaction for each cell.
1. 입력받은이미지로부터 STEM에서 이미지에서 특징들을 추출하고,
2. 셀에서 C1처럼 다른 feature와 level로 나뉘고(예를들면 edge 처럼 낮은 레벨과 background)
Interaction Module (IM)부분을 통해 정보를 상호작용교환하면서 유사성을 보는 구조임.
Twins Contrastive Mechanism
NAS Method
REID 작업에 필요한 NAS(즉 특징을 추출함), 는 REID와 다르게 동일한 클래스로 공유하기때문에 한계가 있어 Twins Contrastive Mechanism를 대책으로 세움
함수 fx에 대하여 주어진 입력 xi에 대한 출력을 계산하기 위해 xi에 (분자) operaion 연산집합을 다양한 연산 operation
으로 알파 값(중요도, 선택확률)의 지수 값의 합으로 정규화하여 결과를 구하면 이값이 가중치가 되고, 이값으로 다시
operation 연산집합에 대하여 결과를 계산하여 가중치 합을 구함
Contrastive Classification Loss
6
Multi-Scale Interaction Space
REID 작업에 필요한 NAS을 위해 제안된 방법으로, 학습과 검증데이터의 특징을 분리하는 손실함수임
특징 f와 학습 데이터의 특징 C의 jtr간의 사이의 내적을 계산하고, 타우 매개변수를 나눈후 모든 클래스에 대해
같은형태의 계산을 각 클래스 n에 대하여 연산 후에 합한 값으로 정규화하고 log로 같은 형식으로 추출함
즉, 이 손실 함수는 f와 각 클래스의 cjtr 사이의 유사성을 측정하는데 유사성은 모든 클래스에 대하여 유사성의 총합으로
정규화됨.
추가로 타우 매개변수는 이 계산에서 적절한 값으로 성능을 최적화할 수 있음
그리고 학습데이터특징과 이전 학습 데이터의 특징사이에 B 가중치를 적용해서 그 값을 검증 데이터의 특징으로 활요함
결과적으로 검증데이터셋의 특징을 활용함으로써 모델의 일반화능력을 향상시키고 아키텍처의 매개변수를
안정화시킴.
Interaction Mondile - MSI cells & down-sample blocks
이 표는 MSINET 아키텍처 내의 상호작용 연산IM , InteractionModule 으로
각 입력특징을 다른 필드 크기를 가진 두개의 채널로 전달하고 채널에서는 각각 1*1 합성곱과 3*3 depth-wise 합성곱을 사용하여 구현됨
N은 None 말그대로 그대로 출력하는거고 E는 Exchange G는 Channel Gate 로, attention을 생성하기 위해, 2개의 fully
connectionlayer로 구성되어 있는 다중퍼셉트론이 도입되는데, layer끼리 feature channel를 선별하면서 상호작용함
A는 채널 상관관계를 계산하는 cross attention 으로 가중치가 이러한 과정을 통해서 다양한 스케일과 해상도에서 특징들을 추출하고 REID작업에 활용할수있음
7
2. MSLNet - Spatial Alignment Module
PAM Architecture
9
앵커의 특징과 미니패치내에 모든 특성사의의 상관 활성 벡터가 PAM을 통해 계산되고, 여기서positive 벡터는 학습 가능한
self-activation으로 정렬되고 nagative는 각각 정렬됨. 이로써 벡터간에 구분을 확실히 함
position activation module 즉 PAM의 메서드를보면 스몰a의 i, j의 좌표별로 activation map A를 계산하고
i와 j간의 activation이 정의되고 dimension이 3차원 featuremap 을 2차원으로 변경(H*W = N(픽셀총수 ))되면서
재배열됨으로 각 위치에 대한 activation을 다른 sample과 쉽게 비교하고 계산할 수있음
3. Experiments
Datasets and Evalution Metrics - Comparison with other backbones
12
개인이나 차량을 다른 시점 즉 이미지에대한 여러쿼리를 식별하는 것을 중점으로
R-1(Rank1이라고도불리고 첫 번째 시도에서 올바른매칭을 찾을 확률) 과 평균정확도를
추출한결과을 비교한 표입니다. Market-1501(M).MSMT17(MS).의 데이터셋의 결과인데
지도학습 같은경우 MSI NET, 비지도인경우 다른 방법들과 결합되어사용되었는데, 다른 SOTA 방법들과
비교해서 높은 성능을 보여주었고 REID에서 적합한 특징을 갖고 있음
a 의 스키마 비교를 보면 TCM의 클래스 제약을 없애서 TCM보다 성능이 올라간것을 볼수 있음
b 아키텍처를 보면 None 이나 Exchange는 훈련할 매개변수가없어서 성능이 낮은건 당연한거고,
Channel Gate같은경우 이전에 말했듯이 Attention이 도입되어 가장 좋은 성능을 보임
cross Attention의 경우 특징들을 교환하지만 일반적인 특징은 방해되어 저하 시키며 MSINet은 나머지보다 뛰어난 걸 볼수있음
나머지 집계들은 스케일 집계방법과 가중치 효과인데 생략하도록 하겠습니다
Comparison with other backbones
13
왼쪽이미지에서 상위15개의 시퀀스와 VR데이터셋에서 계산된 거리를 시각화한 결과를 볼 수있는데,
resnet은 자동차 자체의 외모의 특성에 중점을 두고 있는데 , 모든 Nagative는 비슷한 특성에 중점을 둔것을 볼수있으며,
MSINET은 호퍼에 집중하고,POS,NAG 샘플사이에 호퍼를 중점으로 Distance의 차이를 만드는 것을 볼수있음
이 논문에서는 ReID와의 호환성을 구축하기 위해 NAS에 적합한(Twins Contrastive Mechanism)을 설계했습니다.
작업 특정 search 스킴은 search 과정에 더 적절한 supervision을 제공함.
다중 스케일 상호작용 Search space로 다중 스케일 특성을 유연하게 활용 할 수있음.
(Spatial Alignment Module)을 통해 제안된 MSINet은 제한된 파라미터 양으로 SOTA 성능을 달성합니다.
'Thesis > Paper Reading' 카테고리의 다른 글
U-Net: Convolutional Networks for Biomedical Image Segmentation (0) | 2024.04.24 |
---|---|
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (0) | 2024.01.16 |
Transformer (Attention Is All You Need) (2) | 2023.12.12 |