로봇이 사람의 말을 듣고 직접 움직이는 시대가 빠르게 다가오고 있어요. 그 중심에는 비전-언어-행동(Vision-Language-Action, VLA) 모델이 있는데요, 이미지를 인식하고 자연어를 이해해서 곧바로 로봇 팔이나 모바일 로봇의 제어 신호를 만들어 내는 거대 정책 모델이에요. 오늘은 그중에서도 가장 많이 거론되는 두 모델, 구글 딥마인드의 RT-2와 스탠포드·UC버클리·구글이 공동 공개한 오픈소스 모델 OpenVLA를 깊이 있게 비교해 볼게요. 어떤 모델이 어떤 상황에 더 적합한지, 그리고 앞으로의 로봇 학습 흐름이 어디로 향하고 있는지 함께 살펴봐요. 비교 표와 실전 시나리오까지 정리했으니, 끝까지 읽으시면 OpenVLA와 RT-2의 본질적인 차이를 명확히 파악하실 수 있을 거예요.
VLA 모델이란 무엇이고 왜 중요한가요
전통적인 로봇 제어는 “인지 → 계획 → 제어”의 단계로 나뉘어 있었어요. 카메라가 물체를 인식하고, 경로 계획 알고리즘이 동작을 계산하고, 저수준 제어기가 모터에 신호를 보내는 식이었죠. 하지만 이 분리 구조는 사람이 “빨간 컵을 집어”라고 말하는 자연어 명령을 그대로 처리하기 어렵고, 학습 데이터도 단계마다 따로 모아야 하는 한계가 있었어요.
End-to-End 학습으로의 전환
VLA 모델은 이 단계들을 통째로 하나의 거대한 트랜스포머에 집어넣어요. 입력은 카메라 이미지와 자연어 지시, 출력은 로봇 엔드이펙터의 6자유도 변위와 그리퍼 개폐 신호예요. 마치 사람이 눈으로 보고 머리로 생각해서 손을 움직이듯이, 신경망 하나가 전 과정을 책임지는 거죠.
대규모 데이터와 사전학습의 힘
VLA의 가장 큰 매력은 인터넷에서 학습한 거대 비전-언어 모델(VLM)의 지식을 그대로 가져온다는 점이에요. “바나나는 노란색이고 길쭉하다” 같은 상식이 모델 안에 이미 들어 있기 때문에, 실제 로봇 데이터가 부족해도 새로운 물체에 일반화가 잘 되는 편이에요. 이게 바로 로봇 파운데이션 모델 시대가 열린 핵심 이유예요.

RT-2: 구글 딥마인드의 폐쇄형 거대 모델
RT-2는 2023년 7월 구글 딥마인드가 공개한 모델이에요. 정식 명칭은 “Robotic Transformer 2″이고, 전신인 RT-1이 130만 건의 로봇 시연 데이터로 학습된 반면, RT-2는 여기에 더해 PaLI-X와 PaLM-E 같은 거대 비전-언어 모델을 백본으로 사용해요.
핵심 아이디어: 액션을 토큰으로
RT-2가 영리한 점은 로봇의 연속 동작값을 텍스트 토큰처럼 다룬다는 거예요. 예를 들어 엔드이펙터의 x축 변위 0.1m를 정수 토큰 “128”로 양자화해서, 마치 언어 모델이 다음 단어를 예측하듯이 다음 동작 토큰을 생성하게 만들었어요. 이렇게 하면 기존 VLM의 학습 코드를 거의 그대로 재활용할 수 있어요.
일반화 성능과 한계
RT-2는 “멸종 위기 동물을 픽업해” 같이 추상적인 지시도 어느 정도 수행할 수 있어요. 학습 데이터에 없던 새 물체 상황에서도 RT-1 대비 약 3배 높은 성공률을 보였다고 보고되었죠. 다만 모델 가중치가 공개되지 않았고, 추론에 거대 TPU 클러스터가 필요해서 일반 연구자나 개발자가 직접 다루기는 사실상 불가능해요. 이 점이 오픈소스 진영을 자극한 계기가 되었어요.
OpenVLA: 오픈소스 진영의 답
OpenVLA는 2024년 6월 스탠포드, UC버클리, MIT, 구글 딥마인드, 도요타 연구소 등이 공동으로 공개한 7B 파라미터 규모의 오픈소스 VLA 모델이에요. 사실상 RT-2의 폐쇄성에 대한 학계의 응답이라고 봐도 무방해요.
구조와 학습 데이터
OpenVLA는 비주얼 백본으로 DINOv2와 SigLIP을 결합해 사용하고, 언어 모델로는 Llama 2 7B를 채택했어요. 학습 데이터는 Open X-Embodiment에서 가져온 약 97만 개의 로봇 에피소드인데, 이는 RT-2가 사용한 비공개 데이터셋에 필적하는 규모예요. 학습은 64장의 A100 GPU로 약 15일이 걸렸다고 알려져 있어요.
성능 비교: 의외의 결과
흥미롭게도 OpenVLA는 BridgeData V2와 같은 표준 벤치마크에서 RT-2-X(55B) 대비 약 16.5% 더 높은 절대 성공률을 기록했어요. 파라미터 수는 RT-2의 1/7 수준인데도 말이죠. 이는 학습 데이터의 큐레이션 품질과 비주얼 백본 선택이 단순한 모델 크기보다 중요할 수 있음을 시사해요.
파인튜닝 친화적 설계
OpenVLA는 LoRA(Low-Rank Adaptation)와 4비트 양자화를 공식 지원해요. 덕분에 단일 RTX 4090 GPU 한 장으로도 새 로봇 환경에 빠르게 적응시킬 수 있죠. 이건 RT-2가 절대 따라올 수 없는 OpenVLA의 결정적 강점이에요. 연구실 한 곳이 자체 데이터셋만으로 며칠 만에 자기 환경 전용 정책을 만들 수 있게 된 거예요.
두 모델의 직접 비교
여기까지 살펴본 내용을 표 형태로 정리해 보면 차이가 더 분명해져요.
| 항목 | RT-2 (X-55B) | OpenVLA (7B) |
|---|---|---|
| 공개 시점 | 2023년 7월 | 2024년 6월 |
| 파라미터 수 | 약 55B | 약 7B |
| 오픈소스 여부 | 비공개 | 완전 공개 (가중치 + 코드) |
| 언어 백본 | PaLI-X / PaLM-E | Llama 2 7B |
| 비전 백본 | ViT 기반 | DINOv2 + SigLIP |
| 학습 데이터 | 비공개 자체 데이터셋 | Open X-Embodiment 97만 에피소드 |
| 추론 환경 | TPU 클러스터 | 단일 A100 또는 RTX 4090(양자화 시) |
| 파인튜닝 | 제공되지 않음 | LoRA 공식 지원 |
실용성 측면
실제 연구 현장에서 어떤 모델을 선택해야 할지 고민이라면, 답은 거의 정해져 있어요. 자체 로봇 환경에서 실험을 돌리고 싶다면 OpenVLA가 사실상 유일한 현실적 선택지예요. RT-2는 논문과 영상으로만 접할 수 있는 “참고 모델”의 위치로 자리 잡았죠. 다만 RT-2가 보여 준 액션 토큰화와 거대 VLM 활용이라는 두 가지 핵심 아이디어는 이후 모든 VLA 연구의 기반이 되었다는 점에서 그 의의가 작지 않아요.
일반화와 멀티 로봇 호환
OpenVLA는 Open X-Embodiment에 포함된 22가지 로봇 플랫폼에서 학습되었기 때문에 멀티 임바디먼트 일반화가 강점이에요. 같은 정책 모델로 Franka Panda, WidowX, UR5 등 서로 다른 매니퓰레이터를 비교적 쉽게 다룰 수 있죠. RT-2 역시 RT-2-X로 확장되면서 멀티 로봇을 지원했지만, 외부 연구자가 검증하기 어려워요.
커뮤니티와 생태계의 차이
오픈소스라는 사실은 단순히 코드 공개를 넘어 빠른 개선 사이클로 이어져요. OpenVLA는 공개 직후부터 깃허브 이슈와 디스코드를 중심으로 활발한 커뮤니티가 형성되었고, 6개월 만에 수십 편의 후속 논문이 베이스라인으로 채택했어요. 반면 RT-2는 외부 검증이 거의 불가능해서 “이 결과를 재현해 봤다”는 논문을 찾아보기 어려워요. 학계 표준 모델로 자리 잡기 위해서는 결국 누구나 직접 돌려 볼 수 있어야 한다는 점을 OpenVLA가 잘 보여 주고 있어요.
VLA 모델의 한계와 다음 흐름
두 모델 모두 인상적인 성과를 냈지만 한계도 분명해요. 첫째, 추론 속도가 느려요. 7B 모델조차 50ms 수준의 지연이 생기기 때문에 빠른 동적 작업에는 부적합해요. 둘째, 손가락 미세 조작이나 양손 협응 같은 정교한 매니퓰레이션에는 아직 약해요. 셋째, 학습 데이터가 대부분 책상 위 픽-앤-플레이스 위주라 가정용 일반 환경 일반화는 제한적이에요.
Diffusion Policy와 액션 청킹
최근에는 RT-2/OpenVLA 같은 자기회귀 VLA를 보완하기 위한 방향으로 Diffusion Policy와 Action Chunking Transformer(ACT)가 주목받고 있어요. 한 번에 한 토큰씩 생성하는 대신 향후 수 초간의 동작 시퀀스를 한꺼번에 생성해서 추론 횟수를 줄이고 부드러운 궤적을 만드는 거죠. OpenVLA의 후속작 격인 OpenVLA-OFT도 이런 흐름을 반영하고 있어요.
휴머노이드와 차세대 파운데이션 모델
2025년부터는 NVIDIA GR00T N1, Pi-0(Physical Intelligence), Helix(Figure) 등 휴머노이드 전용 VLA 모델들이 빠르게 등장하고 있어요. 이들은 OpenVLA가 다룬 단일 팔 매니퓰레이션을 넘어 전신 제어와 양손 협응까지 학습 목표로 삼고 있죠. RT-2가 열고 OpenVLA가 대중화한 패러다임 위에서, 다음 세대 모델들이 어디까지 나아갈지 흥미진진해요.
실전 활용 시나리오와 학습 곡선
OpenVLA와 RT-2의 차이를 알았으니, 실제로 어떻게 활용해야 하는지도 짚어 볼게요. 연구자, 스타트업, 학생 각각의 입장에서 접근 방법이 조금씩 달라요.
대학원 연구자의 워크플로
대학원에서 로봇 학습을 연구한다면 OpenVLA를 베이스라인으로 두고 자신만의 개선 아이디어를 얹는 방식이 효율적이에요. 예를 들어 비주얼 백본을 EVA-02로 교체한다거나, 액션 디코더에 Diffusion Head를 붙이는 식의 실험을 해 볼 수 있어요. Hugging Face에 등록된 OpenVLA 가중치를 로드하고 LoRA 어댑터만 학습시키면 GPU 한 장으로도 일주일 안에 결과를 낼 수 있어요.
스타트업의 제품화 전략
로보틱스 스타트업이라면 OpenVLA를 그대로 쓰기보다 사내 데이터셋으로 추가 사전학습을 시킨 뒤 양자화해서 엣지 디바이스에 배포하는 형태가 일반적이에요. 4비트 INT4 양자화 시 메모리 풋프린트가 약 4GB까지 줄어들기 때문에 Jetson AGX Orin 같은 임베디드 GPU에서도 동작할 여지가 있죠. RT-2는 이런 시나리오 자체가 불가능해요.
학생과 입문자의 학습 경로
처음 VLA 모델을 공부한다면 RT-1, RT-2, OpenVLA 순서로 논문을 읽는 걸 추천해요. RT-1에서 트랜스포머 기반 로봇 학습의 기본기를 익히고, RT-2에서 VLM 활용의 핵심을 이해한 다음, OpenVLA에서 실제 구현 디테일을 코드로 확인하는 흐름이에요. 그 다음 단계로 Diffusion Policy와 ACT까지 보면 2024~2025년 VLA 연구의 큰 줄기를 거의 다 잡을 수 있어요.
마무리: 어떤 모델을 공부해야 할까요
지금 막 Physical AI나 로봇 학습 분야에 진입하시는 분이라면 OpenVLA부터 직접 돌려 보는 것을 강력히 추천해요. 깃허브 리포지토리가 잘 정리되어 있고 Hugging Face에서 가중치를 바로 받을 수 있어요. RT-2는 논문(arXiv 2307.15818)을 통해 핵심 아이디어만 이해해도 충분해요. 두 모델의 비교를 머릿속에 정리해 두면, 앞으로 쏟아질 새로운 VLA 논문들도 훨씬 빠르게 흡수할 수 있을 거예요. 로봇이 우리 일상에 들어오는 그 순간, 그 안에는 분명 OpenVLA의 후예가 돌아가고 있을 테니까요. Physical AI 시대를 준비하는 가장 빠른 길은 가장 잘 정리된 오픈소스 정책 모델을 직접 만져 보는 것에서 시작된다고 봐요. 더 자세한 기술 흐름은 Foundation Model 위키피디아 문서와 OpenVLA 공식 페이지에서도 확인할 수 있어요.