로봇이 사람처럼 다양한 환경에서 자연스럽게 움직이려면 어떤 학습 방식이 필요할까요. 최근 구글 딥마인드가 공개한 RT-2(Robotic Transformer 2)와 51개 기관이 협력한 RT-X 프로젝트는 이 질문에 대한 가장 흥미로운 해답으로 주목받고 있어요. 이 글에서는 Foundation Model for Robotics의 대표 사례인 RT-2와 RT-X를 정리하고, 왜 이 모델들이 피지컬 AI(Physical AI) 시대를 여는 분기점으로 평가받는지 차근차근 살펴봐요.
Foundation Model for Robotics가 등장한 배경
전통적인 로봇 학습은 작업 하나하나에 맞춰 데이터를 모으고, 정책(policy)을 따로 훈련하는 방식이었어요. 식기를 정리하는 로봇과 부품을 조립하는 로봇은 거의 무관한 별개의 시스템이었죠. 하지만 자연어 처리에서 GPT 계열이, 이미지 분야에서 CLIP과 SAM이 보여준 대규모 사전학습의 힘을 본 연구자들은 곧 같은 질문을 떠올렸어요. 로봇에도 범용 기반 모델(foundation model)을 만들 수 있을까요?
특수 모델에서 범용 모델로의 전환
로봇용 기반 모델이 매력적인 이유는 단순해요. 한 번 잘 학습된 모델을 다양한 작업, 다양한 신체(embodiment)에 미세조정만으로 적용할 수 있다면 데이터 효율성과 일반화 성능이 동시에 올라가니까요. 2022년 RT-1이 이 가능성을 처음 보여줬고, 2023년 RT-2가 비전 언어 액션(VLA, Vision Language Action) 패러다임을 정착시켰으며, 같은 해 후반에 발표된 Open X-Embodiment 데이터셋과 RT-X가 협력형 학습의 새 장을 열었어요.
VLA 모델이라는 새로운 흐름
VLA 모델은 카메라 영상과 자연어 명령을 입력 받아 곧바로 로봇의 관절 토크나 그리퍼 제어 신호를 출력해요. 즉 인지(perception) → 계획(planning) → 제어(control)로 이어지던 전통적인 파이프라인을 단일 신경망으로 묶어버린 셈이죠. RT-2는 이 패러다임의 가장 잘 알려진 구현체예요.

RT-2: 비전 언어 액션을 하나로 묶은 모델
RT-2는 구글 딥마인드가 2023년 7월에 발표한 모델로, 정식 명칭은 Robotic Transformer 2예요. 핵심 아이디어는 PaLI-X와 PaLM-E 같은 대규모 비전 언어 모델(VLM) 위에 로봇 동작을 토큰처럼 얹어서 함께 학습시킨다는 점이에요.
액션을 토큰으로 표현하기
로봇의 6자유도(6DoF) 엔드이펙터 변위와 그리퍼 개폐 신호 등을 256단계 정수로 양자화한 뒤, 이 정수를 텍스트 토크나이저의 어휘에 추가해요. 그러면 비전 언어 모델 입장에서 “사과를 집어”라는 명령에 대해 영어 단어를 생성하는 것과 로봇 동작 토큰을 생성하는 것이 구조적으로 동일한 작업이 돼요. 덕분에 웹에서 학습된 방대한 시맨틱 지식이 로봇 제어로 자연스럽게 흘러 들어갈 수 있는 거예요.
일반화 성능과 창발 능력
RT-2의 가장 흥미로운 성과는 학습 데이터에 포함되지 않은 새로운 객체와 시나리오에서도 합리적인 동작을 보였다는 점이에요. 예를 들어 “공룡에게 음료를 줘”처럼 로봇 데이터셋에는 없지만 인터넷 텍스트에는 흔한 개념도 처리할 수 있었어요. 일반화 벤치마크에서 이전 RT-1 대비 약 2~3배 향상된 성공률을 보였고, 다단계 추론(multi-step reasoning)과 이모지 해석 같은 창발적(emergent) 능력도 관측됐어요.
한계와 개선 방향
물론 단점도 분명해요. 추론 비용이 크고 실시간 제어에 부담이 있으며, 미세한 조작(예: 천 접기, 케이블 정렬)에서는 여전히 약한 모습을 보였어요. 또 학습된 신체 형태에 강하게 묶여 있어 새로운 로봇으로 옮기려면 추가 미세조정이 필요하다는 점도 과제로 남았어요.
RT-X: 51개 기관이 모은 범용 로봇 데이터
RT-2가 모델 측면의 혁신이라면, RT-X는 데이터 측면의 혁신이에요. 2023년 10월 구글 딥마인드는 전 세계 33개 학술 연구소를 포함한 51개 기관과 함께 Open X-Embodiment라는 거대한 협력 프로젝트를 공개했어요. 이를 기반으로 학습한 모델이 RT-1-X와 RT-2-X예요.
22종 로봇, 100만 에피소드
Open X-Embodiment 데이터셋은 22종의 서로 다른 로봇 신체에서 수집한 약 100만 개 이상의 시연(demonstration) 에피소드를 표준화된 RLDS(Reinforcement Learning Datasets) 포맷으로 통합했어요. 단일 팔 매니퓰레이터부터 양손 로봇, 사족 보행 로봇까지 다양한 형태가 포함돼 있어 신체 다양성 측면에서 이전과 비교가 안 될 정도로 풍부해졌어요.
Cross-Embodiment Transfer의 입증
RT-X 실험의 핵심 발견은 이종 신체 간 전이(cross-embodiment transfer)가 실제로 일어난다는 점이에요. 한 로봇에서만 학습된 모델보다, 22종의 로봇 데이터를 함께 학습한 RT-1-X가 평균 50% 가량 높은 성공률을 기록했어요. 즉 다른 로봇이 모은 데이터가 내 로봇의 정책을 더 좋게 만들어 준다는 사실이 처음으로 대규모로 검증된 것이죠.
오픈소스 생태계의 가속화
RT-X 데이터셋은 누구나 활용 가능한 형태로 공개됐고, 이후 Octo, OpenVLA, RDT-1B 같은 오픈소스 VLA 모델들이 잇따라 등장하면서 로봇 연구의 진입 장벽을 크게 낮췄어요. 한국에서도 카이스트, 서울대, 네이버랩스 등 여러 기관이 이 데이터셋을 활용한 후속 연구를 진행하고 있어요.
RT-2와 RT-X의 비교 정리
두 모델은 종종 함께 언급되지만 역할이 명확히 다르고, 사실은 상호 보완적이에요. 다음 표로 정리해 봐요.
| 구분 | RT-2 | RT-X (RT-1-X / RT-2-X) |
|---|---|---|
| 발표 시기 | 2023년 7월 | 2023년 10월 |
| 핵심 기여 | VLM 기반 VLA 아키텍처 | 다중 신체 데이터셋과 전이학습 검증 |
| 학습 데이터 | 구글 자체 RT-1 데이터 + 웹 VLM | 22종 로봇·100만+ 에피소드 |
| 강점 | 의미 일반화, 자연어 이해 | 이종 신체 간 전이, 데이터 다양성 |
| 참여 규모 | 구글 딥마인드 단독 | 51개 기관 협력 |
실무 관점에서의 시사점
스타트업이나 연구실에서 로봇 정책을 처음 만든다면 처음부터 RT-2 규모를 학습할 필요는 없어요. 대신 RT-X 데이터셋으로 사전학습된 OpenVLA나 Octo를 가져와 자신의 로봇과 작업에 맞춰 LoRA 미세조정을 하는 방식이 훨씬 현실적이에요. 학습 비용은 줄이고, 다양성에서 오는 일반화 이득은 그대로 누릴 수 있으니까요.
피지컬 AI 시대에서의 위치
젠슨 황 엔비디아 CEO는 2025년 CES에서 “AI의 다음 물결은 피지컬 AI”라고 선언했어요. 디지털 공간에서 텍스트와 이미지를 다루던 LLM이 이제 물리 세계에서 몸을 움직이는 단계로 진화하고 있다는 의미예요. RT-2와 RT-X는 그 전환점에 정확히 위치한 모델이에요.
후속 모델로 이어지는 흐름
RT-2 이후 흐름은 무서운 속도로 이어졌어요. 2024년 구글의 RT-Trajectory와 PaLM-E 강화판, 피지컬 인텔리전스의 π0(Pi-Zero), 엔비디아의 GR00T N1, 휴머노이드 스타트업 1X의 NEO와 Figure AI의 Helix까지 모두 VLA 패러다임의 직간접적 후예라 볼 수 있어요. 학계에서도 RDT-1B, OpenVLA-OFT 같은 오픈 모델이 RT-2-X와 견줄 만한 성능을 보고하고 있어요.
한국 산업이 주목해야 할 포인트
국내 제조업, 물류, 서비스 로봇 기업이 이 흐름에서 길을 찾으려면 두 가지가 중요해요. 첫째, 자체 도메인 데이터를 RLDS 등 표준 포맷으로 정리해 둬야 해요. 그래야 외부 사전학습 모델과 즉시 연결할 수 있어요. 둘째, 미세조정과 추론을 위한 GPU 자원 확보 전략이 필요해요. RT-2급 모델을 실시간으로 돌리려면 적어도 A100/H100 수준의 가속기가 필요한데, 엣지 추론 최적화(distillation, 양자화) 노하우 역시 동시에 준비해야 해요.
마치며: RT-2·RT-X가 남긴 질문
RT-2와 RT-X는 로봇 분야에서 “기반 모델”이라는 단어를 비유가 아닌 실체로 만든 첫 사례예요. 이제 남은 질문은 데이터 양이 더 커졌을 때 어떤 새로운 능력이 창발할지, 시뮬레이션과 현실의 격차를 어떤 방식으로 메울지, 그리고 이 모든 발전을 안전하게 사회로 이전하기 위한 평가 체계는 어떻게 만들어야 하는지로 옮겨가고 있어요. 더 자세한 기술 사양은 Foundation model 위키백과 항목과 Open X-Embodiment 공식 페이지를 참고하면 좋아요. 다음 글에서는 같은 흐름의 또 다른 핵심인 Diffusion Policy를 다뤄볼게요.