요즘 로봇 제어 분야에서 가장 흥미로운 변화는 단연 대규모 언어 모델(LLM)의 도입이에요. 그중에서도 스탠퍼드 대학교의 펑쳉리 리(Fei-Fei Li) 교수 연구실에서 발표한 VoxPoser는 추가 학습 없이 자연어 명령만으로 매니퓰레이터의 행동을 합성하는 독창적인 방식으로 주목받고 있어요. 본 글에서는 VoxPoser의 핵심 아이디어, 3D 가치 지도(value map) 생성 절차, 실험 결과, 그리고 실제 로봇 시스템에 적용할 때 고려해야 할 점들을 차근차근 정리해 봐요. Physical AI 시대의 새로운 제어 패러다임이 어떻게 작동하는지 깊이 이해할 수 있도록 도와드릴게요.
VoxPoser란 무엇인가요
VoxPoser는 2023년 7월 arXiv에 공개된 논문 “VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models”에서 제안된 프레임워크예요. 핵심 아이디어는 단순하면서도 강력해요. 사람이 “서랍에서 컵을 꺼내서 식탁에 올려줘”와 같은 자연어 명령을 내리면, LLM이 이를 해석해 파이썬 코드를 생성하고, 이 코드가 비전 언어 모델(VLM)을 호출해 3D 공간 상의 어트랙터 맵(attractor map)과 리펄서 맵(repulser map)을 합성해요. 그 결과 생성된 두 개의 복셀 그리드는 곧바로 모션 플래너의 비용 함수로 사용돼요.

왜 zero-shot이 중요한가요
기존의 학습 기반 정책(예: RT-2, Diffusion Policy)은 새로운 환경이나 새로운 객체에 대해 수백에서 수만 개의 시연 데이터를 요구해요. 반면 VoxPoser는 사전에 수집한 시연 데이터가 거의 필요 없어요. LLM의 상식적 추론 능력과 VLM의 객체 인식 능력만 활용하기 때문에 새로운 명령이나 새로운 객체가 등장해도 즉시 대응할 수 있어요. 이러한 특성은 롱테일 작업이 많은 가정 환경이나 산업 현장에서 큰 강점이에요.
전통적 TAMP와의 차이
고전적인 작업 및 모션 계획(Task and Motion Planning, TAMP)은 환경을 사전에 기호적으로 모델링해야 했어요. 예를 들어 “컵이 서랍 안에 있다”는 사실을 술어 논리로 명시해야 했죠. VoxPoser는 이러한 기호화 과정을 LLM이 자동으로 수행하고, 결과를 연속적인 3D 값으로 변환해요. 덕분에 환경 모델링 비용이 극적으로 줄어들어요.
3D 가치 지도가 만들어지는 절차
VoxPoser의 파이프라인은 크게 다섯 단계로 나눌 수 있어요. 각 단계가 서로 분리되어 있어 디버깅과 확장이 쉬운 점도 매력적이에요.
1단계: 자연어 명령 파싱
사용자가 “노트북을 닫지 말고 옆 책 위에 펜을 올려놔”와 같은 명령을 입력하면, GPT-4 같은 LLM이 이 문장을 받아 단계별 서브태스크로 분해해요. 각 서브태스크는 다시 “어떤 객체를 끌어당길 것인지(어트랙터)”와 “어떤 영역을 피할 것인지(리펄서)”로 분리돼요. 이 단계에서 LLM은 단순한 분류기가 아니라 코드 생성기로 동작해요.
2단계: 비전 언어 모델 호출
생성된 파이썬 코드는 OWL-ViT 같은 오픈 보캐뷸러리 객체 탐지기를 호출해요. “노트북”, “책”, “펜”이라는 객체의 3D 위치와 바운딩 박스를 얻기 위함이에요. 카메라의 깊이 정보를 활용해 픽셀 좌표를 3D 월드 좌표로 역투영해요.
3단계: 복셀 그리드 합성
월드 좌표가 확보되면 작업 공간을 일정 해상도로 분할한 복셀 그리드 위에 가우시안 형태의 어트랙터/리펄서 값을 분포시켜요. 어트랙터는 음수 비용을, 리펄서는 양수 비용을 가져요. 두 맵을 단순히 합치면 최종 비용 지도가 완성돼요.
4단계: 그리디 모션 계획
생성된 비용 지도 위에서 단순한 그리디 알고리즘이나 A* 같은 경로 탐색을 수행해 엔드 이펙터의 궤적을 산출해요. 비용 지도가 미분 가능하므로 그래디언트 기반 최적화도 가능해요. 이때 로봇의 운동학 제약과 충돌 회피 제약을 함께 고려해요.
5단계: 폐쇄 루프 실행
실행 중에도 VLM이 매 프레임마다 객체 위치를 갱신해 비용 지도를 다시 합성해요. 덕분에 외란이 발생해도 강건하게 작업을 완수할 수 있어요. 이러한 폐쇄 루프 특성이 시뮬레이션이 아닌 실제 로봇에서 검증된 점이 의미 있어요.
VoxPoser의 실험 결과와 성능
저자들은 시뮬레이션 환경 13개와 실제 Franka Panda 로봇에서 다양한 매니퓰레이션 과제를 평가했어요. 결과를 보면 단순한 픽 앤 플레이스부터 도구 사용, 장애물 회피, 다단계 작업까지 폭넓게 성공률이 높았어요.
시뮬레이션 벤치마크
저자들이 자체 구축한 13개 과제 셋에서 VoxPoser는 평균 성공률 약 67%를 기록했어요. 동일한 환경에서 LLM이 코드 대신 직접 좌표를 출력하도록 한 베이스라인은 30% 미만이었어요. 이 결과는 LLM이 좌표 산출보다 코드를 매개로 한 추론에 훨씬 강하다는 점을 시사해요.
실제 로봇 검증
실제 Franka Panda 7자유도 로봇 팔로 진행한 실험에서도 “병뚜껑을 닫아라”, “USB를 꽂아라” 같은 정교한 동작이 시연됐어요. 카메라는 일반 RGB-D 카메라 한 대를 사용했고, 추가 학습은 일체 진행하지 않았어요. 이 점이 산업 도입 비용을 크게 낮춰요.
한계점도 분명해요
물론 VoxPoser가 모든 문제를 해결하지는 못해요. 첫째, 정교한 힘 제어가 필요한 조립 작업에는 한계가 있어요. 비용 지도 기반 계획만으로는 미세한 토크 제어를 표현하기 어렵기 때문이에요. 둘째, LLM이 잘못된 코드를 생성하면 복구가 어렵다는 점도 약점이에요. 셋째, 복셀 해상도와 작업 공간 크기에 따라 메모리 비용이 빠르게 증가해요. 이러한 한계를 보완하기 위한 후속 연구들이 계속 발표되고 있어요.
VoxPoser가 영향을 준 후속 연구
VoxPoser 발표 이후 LLM과 3D 표현을 결합한 후속 연구가 폭발적으로 늘었어요. 대표적인 흐름 몇 가지를 정리해 봐요.
ReKep와 키포인트 기반 제약
스탠퍼드 후속 연구인 ReKep은 VoxPoser의 복셀 표현 대신 관계형 키포인트 제약을 도입했어요. 객체의 의미 있는 점을 키포인트로 잡고, 점 간의 거리·각도 관계를 LLM이 코드로 표현하도록 했어요. 덕분에 더 정교한 조립 작업이 가능해졌어요.
Code as Policies와의 비교
구글의 Code as Policies가 VoxPoser보다 앞서 발표됐지만, Code as Policies는 주로 2D 좌표 평면에서 작동했어요. VoxPoser는 이 아이디어를 3D 복셀 공간으로 확장한 셈이에요. 자유로운 3차원 조작이 필요한 경우 VoxPoser 계열이 더 유리해요.
모바일 매니퓰레이션으로의 확장
Tidybot, OK-Robot 등 모바일 매니퓰레이터 연구도 VoxPoser의 사고방식을 차용했어요. 가정 환경처럼 객체 종류가 다양하고 위치가 매번 달라지는 환경에서는 zero-shot 능력이 결정적이기 때문이에요.
실제 도입을 고려할 때의 체크리스트
스타트업이나 연구소에서 VoxPoser 아이디어를 자체 시스템에 도입하려면 몇 가지를 점검해야 해요.
- VLM 정확도: 오픈 보캐뷸러리 객체 탐지의 신뢰도가 낮으면 비용 지도가 어긋나요. 환경에 맞춰 OWL-ViT, Grounding DINO 등을 비교 평가해 보세요.
- 깊이 추정 품질: 깊이 노이즈는 곧 복셀 노이즈로 이어져요. 활성형 RGB-D 센서나 스테레오 카메라 조합을 권장해요.
- LLM 비용: GPT-4 호출이 매 동작마다 발생하면 운영비가 커져요. 캐싱, 작은 모델로의 디스틸레이션, 로컬 LLM 활용을 고려하세요.
- 안전 제약: 자동 생성된 코드를 검증 없이 실행하면 사고가 날 수 있어요. 충돌 검사, 토크 제한, 비상 정지 같은 안전 레이어를 반드시 두세요.
- 실시간성: 비용 지도 재합성 주기를 1~5Hz 정도로 유지해야 폐쇄 루프 효과를 얻을 수 있어요.
오픈 소스 자원 활용하기
저자들은 공식 프로젝트 페이지에서 코드와 데모 영상을 공개했어요. RLBench 시뮬레이터와 함께 사용하면 비교적 적은 비용으로 자체 실험이 가능해요. 또한 NVIDIA Isaac Lab을 사용하면 GPU 가속 환경에서 대규모 평가를 빠르게 진행할 수 있어요.
Physical AI 관점에서 본 의의
VoxPoser는 단순히 새로운 알고리즘 하나를 제안한 것이 아니라 로봇 학습의 패러다임 변화를 보여줘요. 데이터를 수집해 정책을 학습하는 종래의 방식과 달리, 대규모 모델이 보유한 일반 지식을 즉석에서 활용해 행동을 합성하는 접근이에요. 이런 흐름은 Pi-Zero, OpenVLA, RT-2 같은 정책 모델과 상호 보완적으로 발전하고 있어요. 특히 미세한 동작이 필요할 때는 학습 정책을, 새로운 명령에 즉응할 때는 VoxPoser 계열의 합성형 제어를 결합하는 하이브리드 아키텍처가 차세대 표준이 될 가능성이 높아요.
경제적 파급력
또한 사전 학습 비용이 낮아지면 중소 제조업체나 물류 창고에서도 협동 로봇을 빠르게 도입할 수 있어요. 특정 라인 변경 시마다 정책을 재학습할 필요가 줄어들어, 라인 리프레시 주기가 짧은 산업에 큰 도움이 돼요. 이는 곧 총 소유 비용(TCO)의 절감으로 이어져요.
윤리적·사회적 고려
다만 자율성이 높아질수록 사고 발생 시 책임 소재가 모호해질 수 있어요. 로봇 팔에 관한 위키백과 문서에서도 언급되듯, 인간과 로봇의 공유 작업 공간에서는 안전 기준(ISO 10218, ISO/TS 15066)을 엄격히 따라야 해요. VoxPoser 같은 자동 코드 생성 시스템을 도입할 때는 사이버 보안 측면에서도 코드 검증 절차를 마련해야 해요.
마무리: VoxPoser가 알려주는 교훈
VoxPoser는 “LLM은 단순한 텍스트 생성기”라는 고정 관념을 깨고, 물리 세계의 행동까지 설계할 수 있는 강력한 추론 엔진임을 입증했어요. 복셀 가치 지도라는 직관적이면서도 수학적으로 깔끔한 표현 덕분에 누구나 아이디어를 확장하기 쉬워요. 앞으로 휴머노이드, 모바일 매니퓰레이터, 협동 로봇 등 다양한 영역에서 VoxPoser의 후예들이 등장할 거예요. 우리 모두가 Physical AI의 진화 과정을 지켜보면서, 안전과 신뢰성을 잃지 않는 방향으로 기술이 자리잡도록 함께 고민해 봐요.