Object Detection & Segmentation 2
Additional Object Detection Techniques
- Feature Pyramid Netowrk (FPN)
- 충분히 빠르다
- 다양한 크기의 물체를 잘 찾아낸다
- scale robustness 는 object detection에 중요하다.
- Image pyramid 를 만드는 것보다 feature pyramid 를 만드는 것이 효과적이다
- post-work: PANet (Path-aggregation network) – top-down-top을 활용한다
- Path Aggregation Network (PANet)
- top-down path의 FPN에서 bottom-up path를 추가하여 object detectio 에서의 scale robustness를 키운다
- bottom-up connection 이 이미지의 더 좋은 features 생성에 도움이 된다.
- EfficientDet: Effcient Model Search
- EfficientNet 과 비슷한 모델 서치
- BiFPN 구조를 채택하여, top-down, bottom-up 정보의 propagation을 한다
- 더 낮은 리소스로 더 좋은 결과를 낸다.
- DeTR: Detection Transformer
- Vision Transformer for Object Detection
- CNN이 아닌 Transformer 구조를 사용해서 object detection 을 해보자
- Deformable DETR
- Deformable Convolution에서 아이디어를 얻 어 transformer 구조에 적용
- 마찬가지로 conv filter의 offset을 deformable DETER에서는 encoder 내의 attention 입력인 Key의 offset으로 대체하여 사용한다.
Semantic Segmentation
같은 클래스내에 있으면 동일한 영역이라고 본다
Fully Convolutional Network (FCN)
- 이미지의 모든 픽셀에 대해 클래스를 예측
- 1x1 convolution을 사용하여, fully connected layer를 대체
- add skip connection
DeepLab
- atrous convolution을 사용하여, receptive field를 키움
- fully connected conditional random field (CRF)를 사용하여, segmentation 결과를 더 정확하게 만듬
- atrous spatial pyramid pooling (ASPP)를 사용하여, 다양한 크기의 receptive field를 사용
Deconvolution Nework (DeconvNet)
- cpmvolutional layer를 거꾸로 쌓아서, segmentation을 수행
- pooling layer에서의 위치 정보를 복원하기 위해, unpooling layer를 사용
- deconvolution layer를 사용하여, segmentation 결과를 얻음
U-Net
Instance-Aware Semantic Segmentation
- objectness를 캡쳐 할수 없다
- Multi-scale features를 사용하여, objectness를 캡쳐
- Multi-task Network Cascades
- cascade를 사용하여, segmentation과 classification을 동시에 수행
- single network 사용
- Mask R-CNN
- instance segmentation을 수행
- Faster R-CNN을 사용하여, object detection을 수행
- RoIAlign을 사용하여, RoI pooling을 대체
Improving Semantic Segmentation
- Pyramid Scene Parsing Network
- Context Encoding Network
- se loss를 사용하여, context 정보를 사용
- Dual Super-Resolution Learning
- image super-resolution과 semantic segmentation을 동시에 수행
- sub-pixel convnet을 사용하여, segmentation 결과를 얻음
- Segmenter
- A fully Transformer-based encoder-decoder architecture