본문으로 바로가기
반응형

엔비디아는 지난 6월 캐나다 밴쿠버에서 열린 CVPR(Computer Vision and Pattern Recognition Conference)에서 자율주행 개발을 위한 3D 점유 예측(3D Occupancy Prediction) 챌린지에서 치열한 경합을 벌인 끝에 우승을 차지하였습니다.

이번 대회에서는 10개 지역에서 약 150개 팀이 400개 이상의 과제를 제출했는데요, 3D 점유 예측은 장면의 각 복셀, 즉 3D 조감도 그리드상의 각 데이터 포인트의 상태를 예측하는 프로세스입니다. 여기서 복셀은 비어 있음, 점유 중 또는 알 수 없음 등으로 식별할 수 있습니다.

안전하고 강력한 자율주행 시스템 개발에 필수적인 3D 점유 그리드 예측은 엔비디아 드라이브(NVIDIA DRIVE) 플랫폼에서 구현되는 최첨단 컨볼루션 뉴 네트워크(Convolutional neural network)과 트랜스포머(Transformer model) 모델을 사용하여 자율 주행 자동차(AV) 계획 및 제어 스택에 정보를 제공합니다.

“엔비디아의 우승 솔루션에는 두 가지 중요한 AV 발전이 있습니다.”라고 엔비디아의 학습 및 인식 부문 수석 연구 과학자인 Zhiding Yu는 소감을 말했습니다. “이 솔루션은 뛰어난 조감도 인식을 제공하는 최첨단의 모델 설계를 보여줍니다. 또한 최대 10억 개의 매개변수와 3D 점유 예측에 대한 대규모 사전 학습을 갖춘 효과적인 시각적 기초 모델을 보여주죠”

자율 주행을 위한 인식(Perception)은 지난 몇 년 동안 이미지에서 물체나 빈 공간을 감지하는 것과 같은 2D 작업을 처리하는 것에서 여러 입력 이미지를 사용하여 3D로 현실 세계를 추론하는 것으로 발전해 왔습니다.

이제 복잡한 교통 장면에서 물체를 유연하고 정밀하게 세밀하게 표현할 수 있게 되었으며, 이는 “자율 주행에 필요한 안전 인식 요건을 달성하는 데 매우 중요합니다”라고 엔비디아의 AV 응용 연구 책임자이자 저명한 과학자인 Jose Alvarez는 설명했습니다.

뿐만 아니라 엔비디아는 이번 챌린지에서 1위를 차지한 것 외에도 이전 접근 방식에 비해 “실질적으로 향상된 성능”과 함께 “뷰 변환 모듈 개발에 대한 새로운 인사이트”을 인정받아 혁신상을 수상하였답니다.

이번 출품작에 대한 엔비디아의 기술 보고서를 간략하게 읽어보세요.

3D 점유 예측으로 더욱 안전한 자동차 운행

3D 바운딩 박스(Bounding boxes)를 사용하여 장면에서 물체를 감지하고 표현하는 기존의 3D 물체 감지는 AV 인식의 핵심 작업이지만, 한계가 있습니다. 예를 들어, 표현력이 부족하여 바운딩 박스가 실제 정보를 충분히 표현하지 못할 수 있습니다. 또한 트럭에서 떨어진 도로 위험물과 같이 현실 세계에서 거의 볼 수 없는 물체까지 포함하여 가능한 모든 물체에 대한 분류와 기준 정보를 정의해야 합니다.

반면, 3D 점유 예측은 엔드투엔드 자율 주행에 필요한 자율주행 차량의 계획 스택에 세계에 대한 풍부한 정보를 제공합니다.

소프트웨어 정의 차량은 시간이 지남에 따라 입증되고 검증된 새로운 개발을 통해 지속적으로 업그레이드할 수 있습니다. CVPR에서 인정받은 것과 같은 연구 이니셔티브에서 발전한 최첨단 소프트웨어 업데이트를 통해 새로운 기능과 더욱 안전한 주행 기능을 구현할 수 있습니다.

엔비디아 드라이 플랫폼은 자동차에서 데이터 센터에 이르기까지 안전하고 보안이 유지되는 AV 개발을 위한 풀스택 하드웨어 및 소프트웨어를 제공하여 자동차 제조사가 제품 생산에 대한 전체 경로를 제공합니다.

CVPR 챌린지에 대해 자세히 알아보기

CVPR의 3D 점유 예측 챌린지에서는 참가자들이 추론 과정에서 카메라 입력만을 사용하는 알고리즘을 개발해야 했습니다. 참가자들은 오픈 소스 데이터 세트와 모델을 사용할 수 있었기 때문에 데이터 기반 알고리즘과 대규모 모델을 쉽게 탐색할 수 있었습니다. 주최 측은 실제 시나리오에서 최신 3D 점유 예측 알고리즘을 위한 기본 샌드박스를 제공했습니다.

CVPR에서의 엔비디아

엔비디아는 CVPR에서 약 30개의 논문과 프레젠테이션을 발표했습니다. 자율 주행에 대해 논의한 전문가들은 다음과 같습니다:

주요 이미지는 OccNet 및 Occ3D 제공.

반응형