[리뷰] Cross-Domain and Cross-Modal Knowledge Distillation in Domain Adaptation for 3D Semantic Segmentation (MM 2022)
Cross-Domain and Cross-Modal Knowledge Distillation in Domain Adaptation for 3D Semantic Segmentation (MM 2022)
논문 개요
이 논문은 3D 의미론적 분할(3D Semantic Segmentation)을 위한 비지도 도메인 적응(Unsupervised Domain Adaptation, UDA) 문제를 다룬다. 기존 방법들은 도메인 간 분포 차이(domain gap) 문제를 해결하기 위해 적대적 학습(adversarial learning)을 사용하지만, 이는 훈련이 어렵고, 하이퍼파라미터에 민감하며, 안정성이 부족한 문제가 있다.
이를 해결하기 위해 논문에서는 Dual-Cross라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 다음과 같은 핵심 기법을 포함합니다.
- 도메인 간 지식 증류(Cross-Domain Knowledge Distillation, CDKD): 원본 도메인에서 학습할 때 목표 도메인의 정보를 더 잘 반영하도록 도움.
- 모달리티 간 지식 증류(Cross-Modal Knowledge Distillation, CMKD): 2D 이미지와 3D 포인트 클라우드 간의 정보 상호작용을 촉진하여 더 나은 결과를 도출.
- 다중 모달 스타일 변환(Multi-Modal Style Transfer, MMST): 원본 데이터를 목표 도메인의 스타일로 변환하여 모델이 목표 도메인을 인식하도록 도움.
문제점과 해결책
1. 문제점: 기존 도메인 적응 방식의 한계
- 기존 비지도 도메인 적응(UDA) 기법은 주로 적대적 학습(adversarial learning)을 통해 도메인 간 특징을 정렬하는 방식.
- 하지만 적대적 학습은 훈련이 불안정하고 하이퍼파라미터 조정이 어렵다는 문제점이 있음.
- 특히 3D 포인트 클라우드는 데이터 밀도가 다르므로 단순한 도메인 정렬이 어렵다.
해결책
- 도메인 간 지식 증류(CDKD):
- 목표 도메인 스타일을 반영한 교사 모델(Teacher Network)을 활용하여 도메인 적응을 수행.
- 학생 모델이 원본 데이터를 학습할 때, 목표 도메인의 정보를 반영하는 교사 모델의 출력을 정렬하도록 함.
- 효과:
- 기존 도메인 적응 방법보다 더 안정적이고 효과적인 학습 가능.
- 도메인 간 분포 차이를 줄여 목표 도메인에서도 높은 정확도 유지.
2. 문제점: 모달리티 간 정보 상호작용 부족
- 기존 방법들은 2D 이미지와 3D 포인트 클라우드 간의 관계를 충분히 활용하지 못함.
- 예를 들어, 2D 이미지는 조명 변화에 민감하지만, 3D LiDAR 데이터는 더 안정적.
- 하지만 기존 방법들은 이러한 모달리티 간 보완 관계를 적극적으로 활용하지 않음.
해결책
- 모달리티 간 지식 증류(CMKD):
- 2D 및 3D 데이터를 동시에 활용하여 상호 보완적으로 학습.
- 하이브리드 모달 예측(hybrid-modal prediction)을 생성하여, 2D 및 3D 모델이 서로의 강점을 배우도록 함.
- 효과:
- 조명 변화나 데이터 밀도 차이에 덜 민감한 강건한(segmentation) 결과 도출.
- 2D와 3D 간의 상호작용을 통해 각각의 단점을 보완하는 효과.
3. 문제점: 스타일 차이로 인한 학습 어려움
- 서로 다른 데이터셋(예: 주간 vs 야간, 다른 나라의 도로 데이터)은 조명 조건, 물체 모양, 포인트 밀도 등이 크게 차이.
- 단순한 도메인 정렬 기법만으로는 이러한 스타일 차이를 해결하기 어려움.
해결책
- 다중 모달 스타일 변환(MMST):
- 2D 이미지의 경우: Fast Fourier Transform (FFT)을 이용하여 목표 도메인의 스타일을 적용.
- 3D 포인트 클라우드의 경우: 밀도 변환(Density Transfer, DT) 기법을 사용하여 목표 도메인의 포인트 밀도와 유사하게 조정.
- 효과:
- 기존 데이터에 목표 도메인의 스타일을 반영하여 모델이 목표 도메인을 자연스럽게 학습할 수 있도록 도움.
- 2D와 3D 데이터를 더욱 효과적으로 활용하여 성능 향상.
실험 결과
논문에서는 다양한 도메인 적응 설정에서 Dual-Cross의 성능을 평가하였으며, 기존 방법(xMUDA, DsCML) 대비 우수한 성능을 보였다.
- Day → Night 설정 (주간 → 야간 학습)
- xMUDA 대비 2D 성능 6.1% 향상, 3D 성능 2.0% 향상.
- DsCML 대비 2D 성능 4.3% 향상, 3D 성능 0.5% 향상.
- 야간 데이터에서 잘못된 물체 분류 문제를 효과적으로 해결.
- A2D2 → SemanticKITTI 설정 (데이터셋 간 적응)
- xMUDA 대비 2D 성능 6.2% 향상, 3D 성능 3.8% 향상.
- 기존 방법이 자전거(Bike)와 인도(Sidewalk)를 정확하게 분류하지 못하는 문제 해결.
- USA → Singapore 설정 (국가 간 도메인 적응)
- 기존 방법보다 향상된 성능을 보였으나, DsCML과 비슷한 수준의 성능 기록.
- 연산 효율성 개선
- Dual-Cross는 기존 방법 대비 더 적은 연산량으로도 높은 성능 유지.
- 적대적 학습(adversarial learning) 없이도 안정적인 도메인 적응 가능.
결론
Dual-Cross는 기존 3D 의미론적 분할 모델들이 직면한 도메인 적응 문제를 효과적으로 해결하는 프레임워크다.
- 도메인 간 지식 증류(CDKD) → 기존 데이터 학습 시 목표 도메인의 정보 반영.
- 모달리티 간 지식 증류(CMKD) → 2D 및 3D 데이터를 상호 보완적으로 활용.
- 다중 모달 스타일 변환(MMST) → 목표 도메인의 스타일을 반영하여 학습 효과 개선.
이러한 기법을 통해 기존 방법들보다 더 효과적이고 안정적인 3D 의미론적 분할이 가능하며, 특히 조명 변화나 센서 차이에 강건한 모델을 구축할 수 있음.
Review
- FFT를 3D Semantic Segmentation에 사용해서 가져왔는데, 예전에 찾아본 논문도 그렇고 Domain Adaptation 분야에서 2D쪽에 FFT 적용하는 경우가 많은 것 같음.
- 지금 생각하는 아이디어가 2D와 3D 각각 정보를 추가하는 개념인만큼, KD에 DA분야기는 해도 얻을 수 있는 아이디어가 있지 않을까 해서 리뷰하게 되었음 (그리고 Day => Night 정도의 DA는 각자의 분야에서 적용해보기 좋을 것 같기도 함).
- 보통 2D는 2D끼리, 3D는 3D끼리 하는 걸 고려하는데 여기서는 하이브리드와 2D, 하이브리드와 3D로 실행했음.