Abstract

본 논문에서는 MVS의 특징 매칭에 대한 탐색을 기반으로 하는 TransMVSNet을 제안합니다. 우리는 MVS를 feature matching task의 본질로 되돌리고, 이를 토대로 강력한 Feature Matching Transformer(FMT)를 제안합니다. 이는 intra(self), inter(cross) attention을 적용하여 이미지들간 context 정보를 aggregation 하는 역할을 합니다. FMT의 더 나은 효과를 위해, 본 논문에서는 Adaptive Receptive Field(ARF) 모듈을 활용해 각 feature의 원활한 전달을 보장하고, 각기 다른 스케일의 feature와 gradient를 전달합니다. 또한, feature 간 유사성을 측정하기 위해 pair 별 feature 상관관계를 적용하고, supervision을 강화하기 위해 모호성을 줄일 수 있는 focal loss를 적용했습니다. Transformer를 MVS에 적용한 첫 번째 시도이며, 결과적으로 각 벤치마크 데이터셋들에서 SOTA를 달성했다.

Introduction

MVS는 calibrated image들을 활용해 dense 3D의 복원을 목표로 하는 컴퓨터 비전의 중요한 task 입니다. learning-based MVS network들은 reconstruction의 품질과 효율성 측면에서 좋은 성과를 거뒀습니다. 일반적으로, MVS network는 CNN과 source view들을 쌓아 만든 cost volume을 이용해 reference view의 image feature를 추출하는 것을 말합니다. 이러한 cost volume은 최종 depth를 추정하기 위해 정규화됩니다.

MVS의 본질은 one-to-many feature matching task로, 이는 reference image의 각 pixel이 모든 warping된 source image에서 epipolar line을 따라 검색하여 가장 낮은 매칭 비용으로 최적의 depth를 찾는 것입니다. 최근 연구 중 일부는 feature matching task에서 global context를 중요성을 입증했습니다. 하지만 앞서 언급한 MVS 파이프라인을 고려할 때, 2가지의 문제점이 있습니다.

  1. local feature는 convolution으로 잘 포착합니다. convolution으로 추출한 feature들의 지역성은 global context information의 인식을 방해할 수 있습니다.(textureless 표면, 반복 패턴 등)
  2. matching cost를 계산할 때, 비교할 feature는 각 encoder에서 간단하게 추출됩니다. 따라서 각 이미지 자체, 즉, 잠재적인 이미지 간 대응은 고려되지 않습니다.

최근 transformer는 computer vision에서도 좋은 성과를 보이고 있습니다. Transformer의 context aggregation을 위해 attention과 positional encoding을 사용하기 때문에, global 및 positionally information을 인식할 수 있습니다.

마지막으로, 본 논문에서는 강력한 Feature Matching Transformer(FMT) 모듈을 활용해 image 간 global context aggregation을 강화한 network, TransMVSNet을 제안합니다. 또한, FMT를 기존 MVS 파이프라인에 더 잘 적용하기 위해, CNN을 통해 aggregation된 local feature를 FMT에 원활하게 전달하기 위한 Adaptive Receptive Field(ARF)를 도입했습니다. 이는 런타임 메모리를 줄이고 supervision을 이용해 고해상도의 depth map을 훈련시킬 수 있게 만들어주기도 합니다. 추가적으로 본 논문에서는 pair 별 feature correlation을 적용해 reference feature map과 source feature map 사이 유사성을 측정할 수 있도록 했습니다. 그 후 coarse-to-fine한 volume regularization 과정을 거치고, focal loss를 활용해 네트워크를 훈련시킵니다.

TransMVSNet은 위 과정들을 통해 view 내부 그리고 view 간 global context information을 잘 인식해 reconstruction 정확도와 완성도를 크게 향상시킵니다. 또한, TransMVSNet의 압도적인 성능은 복잡한 장면에서 볼 수 있습니다.

Untitled

Contribution

  1. 이미지 내부와 이미지 간의 global context aggregation을 위해 FMT를 제안하고, 이를 이용한 TransMVSNet을 제안합니다.
  2. FMT를 더 잘 적용하기 위해 ARF 모듈을 도입하였으며, 이를 통해 convolution을 이용해 추출한 feature의 receptive field를 adaptive하게 조정하고 focal loss를 통해 훈련시켰습니다.
  3. DTU 및 Tank and Temple 데이터셋에서 SOTA를 달성했습니다.

Methodology