[논문 정리] FocalFormer3D: Focusing on Hard Instance for 3D Object Detection
·
논문 정리/3D Object Detection
Abstract문제False Negative (FN)- 객체가 있는데 모델이 놓친것을 의미- 즉, 모델이 탐지하지 못한 객체자율주행에서 어떤 객체든 모델이 탐지하지 못한다는건 굉장히 큰 문제다.- 교통사고로 이어질 수 있기 때문  해결FocalFormer3D는 다음 방법들을 통해 false negative들을 줄이고자 한다.- HIP (Hard Instance Probing)        - FN을 줄이는 pipeline 제시- Multi-stage query generation        - 탐지하기 어려운 객체를 multi-stage로 해결- Box-level transformer decoder        - 방대한 객체 후보로부터 객체를 효과적으로 구별          Introduction3D..
[논문 정리] End-to-end 3D Tracking with Decoupled Queries
·
논문 정리/3D Multi Object Tracking
AbstractCamera-based 3D MOT에 대한 새로운 end-to-end framework를 소개합니다!  문제Detection과 tracking을 하나의 query만 사용해서 해결하는 것은 성능이 좋지 않다.- Detection은 localization, tracking은 association을 담당하므로 서로 너무 다른 일을 처리한다.- 하나의 query로 두 task를 모두 해결하려고 하면, 두 부분 모두 성능이 낮아진다.- Representation conflict 라고 표현   해결Detection과 tracking 각각에 대해 query를 만들어 사용- Decoupled query 라고 표현          IntroductionTracking-with-query 접근이 많이 이루어..
[논문 정리] TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
·
논문 정리/3D Object Detection
개인 생각Object query에 대한 접근과 활용을 진짜 기가막히게 해버린 논문. 2D domain과 3D domain을 fusing하기 위해 진짜 다양한 논문들을 참고하고, 녹여냈다는 것을 느낄 수 있었다.           Abstract 문제- Image condition을 고려한 fusion 방법이 없음        - Bad illumination        - Sensor misalignment- 존재하는 fusion 방법들은 calibration matrix에 크게 의존        - 카메라가 다르거나, calibration이 정교하지 않거나 하면 성능이 낮아짐        - 이를 hard association이라고 표현   해결- Transformer decoder 구조 사용    ..
QTNet
·
기타/풍미박산 기절초풍 설치과정
"풍미박산 기절초풍 설치과정" 시리즈는 말투가 다소 경박할 수 있다는 점 유의 바랍니다.  서론글 쓰는 시점, 그러니까 내가 QTNet을 클론해서 사용해보려하는 시점은 2024년 8월 중순이다. 그리고 QTNet의 전신은 TransFusion으로 마지막 커밋이 2022년 8월이므로 2년 차이가 난다. 이걸 왜 언급하냐면, 2년의 차이가 내 7일을 박살내버렸기 때문이다. 결국 내가 살아남았다.          개발환경 맞추기내가 가진 환경은 다음과 같았다.OSGPUPythonLinux Ubuntu 22.04RTX 30903.8.10 참고로 python은 꼭 3.8.x로 맞추자 이후 과정에 영향을 준다.         Pytorch 설치pip install torch==1.7.0+cu110 torchvis..
[논문 정리] VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
·
논문 정리/3D Object Detection
개인 생각Dense한 feature라는 것이 두가지 의미를 가지고 있다고 이해했다.    1. Feature들이 오밀조밀 모여있다는 것을 의미    2. Sparse voxel feature에 공간적인 특성을 부여했다는 의미 저자는 2번째 의미에서의 dense한 feature를 피했다는 것을 강조한다.    - 이를 확신하는 이유는 backbone adaptation 부분에서 설명할 예정이다.     Sparse voxel feature를 input부터 output까지 유지했다는 점이 VoxelNeXt의 특징이며, 진짜 sparse함을 극한까지 활용했다는 것을 알 수 있다.     추가로 언급되는 query voxel은 어떻게 찾아야하는지, 코드 상에서 어떻게 구현됐는지 저자가 밝히지 않았다. 그래서 ..
[2024 하계모각코] 4회차 계획
·
기타/모각코
VoxelNeXt 논문 정리해보기
[논문 정리] Center-based 3D Object Detection and Tracking
·
논문 정리/3D Object Detection
개인 생각2D object detection에서 쓰이던 기술들이 대거 3D에서도 쓰이는 것 같다.이름만 봐도 2D에 사용됐었던 모델이 보인다. 제시된 CenterPoint는 3D만의 방법을 찾아내는 과도기에 있는 것 같다는 생각이 들었다.       Abstract문제- 3차원 세계의 객체들은  특별한 방향을 갖지 않음- Box-based detector 들은 axis-aligned bounding box를 rotated object들로 fitting하는걸 어려워함해결- 3차원 객체들을 point의 형태로 표현하고, detect하고 track- 3d object tracking을 greedy closest-point matching 문제로 단순화        Introduction잘 알려진 2D dete..
[2024 하계모각코] 3회차 계획
·
기타/모각코
CenterPoint 논문 정리해보기
3D keypoints 시각화 해보기
·
컴퓨터 비전
HumanSC3D 데이터셋에서 라벨로 주어지는 3D keypoints들을 이미지에 시각화 해보자.   3D keypoints 분석HumanSC3D는 25개의 keypoint를 쓴다. 다른 keypoint데이터셋은 17개만 쓴다. 왼쪽, 오른쪽 손과 왼쪽 오른쪽 발 각각에 대해 2개씩의 keypoint들을 더 둔다.- 추가된 keypoint가 뭔지는 잘 모르겠다. 따라서 기존 17개의 keypoint에 8개의 keypoint가 더 들어가서 총 25개가 된다.    Keypoint마다 3차원 좌표를 가지고, 동영상의 각 프레임마다 keypoint들을 가진다. 라벨의 keypoint들을 텐서로 변환했을때 shape은 동영상의 총 프레임 개수를 F라고 하면, (F, 25, 3) 이 된다.    이걸 그대로 3차..
[2024 하계 모각코] 2회차 계획
·
기타/모각코
3차원 keypoints 시각화 해보기