로봇 분야에서 가장 뜨거운 키워드 중 하나가 바로 파운데이션 모델이에요. 텍스트와 이미지 영역의 GPT나 CLIP처럼, 로봇 행동까지 통합적으로 다룰 수 있는 거대 정책 모델이 가능할까 하는 의문이 늘 따라다녔어요. 2024년 가을 Physical Intelligence가 공개한 Pi-Zero(π₀)는 이 질문에 대한 가장 실증적인 답안 중 하나로 손꼽혀요. 이번 글에서는 Pi-Zero 정책 모델 발표 분석을 중심으로, 모델 구조, 학습 데이터, 벤치마크 결과, 그리고 산업적 의미를 차분히 살펴볼게요.

Pi-Zero가 등장한 배경과 의미
최근 몇 년간 로봇 학습 분야는 RT-1·RT-2·Octo·OpenVLA로 이어지는 일련의 비전-언어-액션(VLA) 모델 흐름으로 빠르게 진화해 왔어요. Pi-Zero는 이런 흐름의 다음 챕터를 여는 모델로 평가받고 있어요. 단순히 새로운 정책 모델 하나가 추가된 차원이 아니라, “범용 로봇 파운데이션 모델은 이렇게 만들 수 있다”는 청사진을 구체적으로 제시했기 때문이에요.
왜 정책 모델이 어려운가
언어 모델은 토큰 시퀀스를 예측하면 충분하지만, 로봇 정책 모델은 다차원 연속 행동 공간을 다뤄야 해요. 7자유도 매니퓰레이터 한 대만 해도 관절 각도와 그리퍼 명령이 결합되어 매 순간 7~8개의 연속 변수를 동시에 예측해야 하죠. 거기에 양팔 로봇이나 휴머노이드까지 확장하면 14~50차원의 연속 행동을 50Hz 안팎으로 만들어내야 해요. 단순 회귀로는 다중 모드 분포를 충분히 다루기 어렵고, 학습 데이터의 다양성도 언어·이미지 대비 턱없이 부족해요.
Physical Intelligence의 비전
Physical Intelligence는 OpenAI 출신 연구자들과 Google Robotics, DeepMind 출신 인력이 모여 설립한 스타트업이에요. 이들은 “특정 작업이 아니라 어떤 물리적 작업이든 수행하는 단일 모델”을 목표로 잡았고, 그 첫 번째 결과물이 바로 Pi-Zero예요. 모델 가중치를 부분 공개하고, 학습 레시피와 실험을 상세히 공개했다는 점에서 오픈사이언스 정신도 충실해요.
모델 아키텍처 — Flow Matching 기반 VLA
Pi-Zero의 핵심 설계는 비전-언어 백본 + 액션 전문가로 요약돼요. 사전학습된 멀티모달 대규모 모델(PaliGemma 계열로 알려져 있음) 위에, 액션 전용 트랜스포머 블록을 추가하는 구조예요. 입력으로는 다중 카메라 이미지, 자연어 지시문, 그리고 현재 관절 상태(proprioception)가 들어가고, 출력으로 미래 짧은 구간의 행동 청크(action chunk)를 생성해요.
Flow Matching의 도입
가장 눈에 띄는 점은 행동 생성을 플로우 매칭(Flow Matching) 방식으로 수행한다는 거예요. Diffusion Policy가 노이즈에서 행동을 디노이징하는 방식이라면, 플로우 매칭은 노이즈 분포에서 데이터 분포로 향하는 벡터장(vector field)을 직접 학습해요. 학습이 더 안정적이고, 더 적은 적분 스텝으로 고품질 행동을 만들 수 있어서 50Hz 실시간 제어에 적합해요.
액션 청크 예측
Pi-Zero는 한 번에 약 50스텝 정도의 행동 청크를 예측해요. 매 타임스텝마다 새로 추론하지 않고, 일정 구간 동안 미리 만들어 둔 행동을 활용함으로써 추론 지연을 흡수해요. 이 아이디어는 ACT(Action Chunking with Transformers)에서도 사용된 기법으로, 부드럽고 연속적인 동작을 얻기에 유리해요.
크로스-임바디먼트 토큰화
이 모델이 야심차게 풀려는 문제 중 하나가 크로스-임바디먼트(cross-embodiment)예요. 7자유도 단일팔, 듀얼암 모바일 매니퓰레이터, 휴머노이드 등 서로 다른 하드웨어에서 모은 데이터를 단일 모델로 흡수해요. 행동 공간을 패딩하고, 임바디먼트 식별 토큰을 입력에 결합하는 방식으로 처리해요. 이런 통합 학습 덕분에 데이터 효율과 일반화 성능이 모두 향상됐다고 보고되었어요.
학습 데이터 — 규모와 다양성의 비밀
발표 자료에 따르면 Pi-Zero는 약 1만 시간 이상의 로봇 시연 데이터로 학습되었어요. 이는 단일 로봇 회사 단위에서 수집된 텔레오퍼레이션 데이터로는 매우 큰 규모예요. Open X-Embodiment 컨소시엄의 약 100만 에피소드와는 또 다른 결의, 단일 회사 자체 데이터셋이라는 점이 인상적이에요.
자체 수집 데이터
Physical Intelligence는 다양한 가정·산업 환경을 모사한 무대에서 7~8개 임바디먼트의 텔레오퍼레이션 데이터를 직접 수집했어요. 빨래 개기, 식기 정리, 식료품 포장, 박스 조립처럼 정밀 조작이 필요한 과제가 많이 포함되어 있어요. 텔레오퍼레이터는 VR 또는 양손 컨트롤러를 사용했고, 모든 데이터에는 자연어 지시문이 함께 주석돼요.
공개 데이터셋 통합
여기에 더해 Open X-Embodiment, BridgeData V2, DROID 등 공개 데이터셋을 함께 사용해서 일반화 성능을 보강했어요. 데이터 종류와 크기를 정리하면 다음과 같아요.
| 구분 | 특징 | 비중 |
|---|---|---|
| 자체 텔레오퍼레이션 | 가정·산업 정밀 조작 | 중심 데이터 |
| Open X-Embodiment | 22개 임바디먼트, 1M+ 에피소드 | 일반화 보강 |
| BridgeData V2 | 저비용 매니퓰레이터 시연 | 저비용 도메인 |
| DROID | 실험실·가정의 7DoF 시연 | 도메인 다양성 |
지시문 다양화
같은 영상이라도 짧은 명령(“바나나 집어”)과 긴 지시문(“싱크대 옆 노란 바나나를 집어서 도시락 통에 넣어줘”) 두 종류로 라벨링해, 언어 일반화 능력을 키웠어요. 또 LLM을 활용해 지시문 재서술(paraphrasing)을 수행함으로써 자연어 변이에 대한 견고함도 확보했어요.
학습 레시피와 파인튜닝 전략
Pi-Zero는 학습이 두 단계로 나뉘어요. 프리트레이닝은 거대한 혼합 데이터를 흘려보내며 범용 정책을 학습하는 단계예요. 이어지는 포스트트레이닝은 특정 작업·환경에 맞춰 모델을 미세 조정하는 단계로, 양치질을 시키거나 박스를 접는 작업처럼 정밀한 운영 능력을 키울 때 사용돼요.
장시간 작업 처리
빨래 개기 같은 작업은 한 에피소드가 수 분이 걸리고, 잘못된 행동이 누적되면 회복이 어려워요. Pi-Zero는 행동 청크 길이를 늘리고, 시각·언어 컨텍스트 윈도우를 확장하는 방법으로 장시간 의존성을 잡았어요. 또 실패 회복(re-grasping, repositioning) 데이터를 의도적으로 포함해 강건성을 키웠어요.
고빈도 제어와 저빈도 추론의 분리
실제 로봇은 50Hz 이상으로 제어되는 반면, 거대 모델은 그 빈도로 추론하기 어려워요. Pi-Zero는 저빈도 비전-언어 계산과 고빈도 액션 디코딩을 분리해 이 문제를 풀어요. 큰 인코더는 5~10Hz로 컨텍스트를 갱신하고, 가벼운 액션 전문가는 50Hz로 행동을 만들어요. 이 비대칭 구조 덕분에 거대 모델임에도 실시간 동작이 가능해요.
오픈소스 파생
발표 이후 Pi-Zero-FAST처럼 동작 토큰을 더 효율적으로 압축하는 후속 모델, 그리고 Hugging Face LeRobot 팀이 PyTorch로 재구현한 OpenPi가 잇따라 공개되었어요. 덕분에 연구자나 스타트업도 적은 자원으로 사전학습 가중치를 활용할 수 있게 됐어요. 자세한 모델 카드와 코드는 Hugging Face LeRobot 저장소에서 확인할 수 있어요.
벤치마크와 실제 시연 결과
Pi-Zero가 공개될 때 가장 화제가 된 부분은 단연 시연 영상이에요. 빨래 개기, 식료품 포장, 식기 세척기 정리처럼 휴리스틱으로는 매우 풀기 어려운 작업들을 단일 모델로 수행하는 모습이 인상적이었어요. 정량 벤치마크에서도 의미 있는 성과가 보고됐어요.
제로샷·퓨샷 일반화
학습 분포에 없던 새로운 사물·환경에서 별다른 추가 학습 없이 일정 수준의 성공률을 보였어요. 특히 의류처럼 자세나 모양이 매번 다른 비강체(non-rigid) 객체에서 강한 일반화 능력을 보였다는 점이 주목할 만해요. 기존 정책 모델은 빳빳한 박스 같은 강체에서는 잘 동작하지만, 부드러운 천 조작에서는 무너지는 사례가 많았기 때문이에요.
장시간 다단계 작업
실험에서 Pi-Zero는 100~300스텝에 걸친 다단계 작업을 단일 정책으로 수행했어요. RT-2 같은 이전 세대 VLA 모델이 짧은 픽앤플레이스에 강점을 보인 반면, Pi-Zero는 정렬·접기·포장처럼 순서가 중요한 작업에서 차별성을 보였어요. 평균 성공률은 작업 난도에 따라 50~85% 구간에 분포해요.
포스트트레이닝의 효과
특정 작업 데이터로 1~3시간 정도 추가 학습하면 성공률이 10~30% 가까이 상승하는 경향이 확인됐어요. 이 결과는 산업 도입 관점에서 매우 중요해요. 거대 모델을 처음부터 학습할 자원은 없어도, 공개 가중치를 받아 자체 환경에 맞춰 적당히 미세조정하면 실용 성능에 도달한다는 신호이기 때문이에요.
산업적 의미와 한계, 그리고 다음 단계
Pi-Zero가 가져온 변화 중 하나는 로봇 파운데이션 모델(RFM)이라는 개념을 실증했다는 점이에요. 단일 모델로 다수의 임바디먼트와 작업을 다룰 수 있다는 가능성이 열리면서, 휴머노이드 스타트업과 산업 로봇 기업의 전략이 빠르게 재편되고 있어요. Figure AI, 1X, Apptronik 같은 휴머노이드 회사들도 자체 정책 모델 학습에 막대한 데이터·연산 자원을 투입하고 있어요.
여전히 남는 한계
물론 한계도 분명해요. 첫째, 학습 데이터가 결국 텔레오퍼레이션 시연에 의존하기 때문에 사람이 시키지 못한 작업은 잘 못해요. 둘째, 모델이 거대해서 온디바이스 추론이나 저전력 시스템에 바로 올리기는 어려워요. 셋째, 실패 시 안전성을 어떻게 보장할지에 대한 논의가 충분치 않아요. 가정·산업 도입을 위해서는 안전 인증과 표준화 작업이 추가로 필요해요.
연구 커뮤니티의 응답
학계에서는 Pi-Zero를 기준으로 더 효율적인 토큰화, 더 강한 비전 인코더, 멀티태스크 강화학습 결합 등의 후속 연구가 활발해요. 관련 논문(arXiv:2410.24164)이 발표 한 달 만에 수십 차례 인용되며, VLA 모델 표준 비교 기준으로 빠르게 자리잡고 있어요. 동시에 평가 벤치마크 표준화에 대한 요구도 커지고 있어요. 현재 각 회사가 자체 데모로 성과를 발표하다 보니, 객관적 비교가 어렵다는 비판도 나와요.
다음 단계 전망
다음 세대 정책 모델은 더 크고, 더 다양한 임바디먼트를 다루며, 강화학습 기반 자기개선(self-improvement)과 시뮬레이션-실물 결합을 더욱 강하게 통합하는 방향으로 진화할 가능성이 커요. Pi-Zero는 그 출발선에서 가장 또렷한 이정표를 세운 모델로 기록될 거예요.
마치며 — Pi-Zero가 남긴 청사진
지금까지 Pi-Zero 정책 모델 발표 분석을 다섯 가지 축에서 살펴봤어요. 아키텍처는 비전-언어 백본과 플로우 매칭 기반 액션 전문가의 결합, 데이터는 자체 수집 텔레오퍼레이션과 공개 데이터셋의 융합, 학습 레시피는 프리트레이닝-포스트트레이닝의 2단계, 결과는 장시간 다단계 작업에서의 강력한 일반화, 영향은 로봇 파운데이션 모델 시대의 본격적인 개막으로 정리할 수 있어요. 거대 모델이 곧바로 모든 로봇 문제를 푼다고 단언하기는 이르지만, 적어도 “범용 정책 모델은 가능하다”는 강력한 증거를 제시했다는 점에서 의미가 커요. 앞으로 Physical AI 생태계가 어떤 모습으로 진화할지, 그 한가운데에서 Pi-Zero가 기준점 역할을 할 거예요.