RT-2 비전 언어 액션 모델의 혁신: 로봇이 언어를 이해하기 시작한 순간

RT-2(Robotic Transformer 2)는 구글 딥마인드가 2023년 공개한 비전-언어-액션(Vision-Language-Action, VLA) 모델로, 로봇이 카메라 영상과 사람의 자연어 지시를 받아 곧바로 물리적 행동을 생성하는 새로운 패러다임을 제시했어요. 이 글에서는 RT-2 비전 언어 액션 모델의 혁신이 어떤 점에서 기존 로봇 학습 방식과 다른지, 어떤 기술적 토대 위에서 작동하는지, 그리고 후속 모델과 산업 응용에 어떤 변화를 가져왔는지 차근차근 풀어볼게요.

RT-2가 등장한 배경과 기존 로봇 학습의 한계

전통적인 로봇 제어는 수십 년 동안 모듈식 파이프라인에 의존해 왔어요. 인식 모듈이 카메라 영상에서 물체를 검출하면, 계획 모듈이 동작 시퀀스를 짜고, 마지막에 제어 모듈이 관절 토크를 계산하는 식이었죠. 각 단계가 독립적으로 설계되다 보니 통합 비용이 컸고, 학습 데이터가 부족한 상황에서는 환경이 조금만 바뀌어도 곧장 무너졌어요.

모방 학습과 강화 학습의 한계

2010년대 후반에 등장한 종단간(end-to-end) 모방 학습은 카메라 픽셀에서 곧장 액션을 출력하도록 신경망을 학습시키는 접근이었어요. 그러나 로봇이 직접 수집한 시연 데이터의 양이 인터넷 텍스트나 이미지에 비해 턱없이 적었기 때문에, 일반화 성능이 좀처럼 올라오지 않았어요. 강화 학습 역시 시뮬레이터에서 효과적이지만, 실제 환경으로 옮기면 보상 설계와 안전 문제로 활용이 제한됐죠.

대규모 사전학습 모델의 가능성

같은 시기에 GPT 계열 대형 언어 모델과 CLIP, PaLI 같은 비전-언어 모델이 폭발적으로 성장했어요. 인터넷에서 수집한 수십억 장의 이미지와 텍스트로 학습된 이 모델들은 사람과 비슷한 수준의 의미 이해를 보여 줬고, 자연스럽게 “이 능력을 로봇 제어에 그대로 옮겨올 수 있을까?”라는 질문이 떠올랐어요. RT-2는 바로 이 질문에 가장 설득력 있는 답을 제시한 모델이었어요.

RT-2의 핵심 아이디어: 액션을 토큰으로 다루기

RT-2의 가장 큰 혁신은 로봇 액션을 자연어 토큰처럼 표현한 점이에요. 일반적으로 로봇 액션은 6자유도 손목 위치, 회전, 그리퍼 개폐 같은 연속 값으로 나타내요. RT-2는 이 값을 정수 구간으로 양자화한 뒤, 각 구간에 고유한 토큰을 부여해서 텍스트 시퀀스로 직렬화했어요. 즉 “픽셀 + 자연어 명령 → 액션 토큰 시퀀스”라는 형식으로 변환되니, 비전-언어 모델 자체를 그대로 미세조정할 수 있게 됐죠.

RT-2 비전 언어 액션 모델을 상징하는 휴머노이드 로봇
Photo by Enchanted Tools on Unsplash

PaLI-X와 PaLM-E 백본의 활용

RT-2는 두 가지 변형으로 공개됐어요. 하나는 비전-언어 모델 PaLI-X(55B 파라미터)를 백본으로 쓴 RT-2-PaLI-X이고, 다른 하나는 멀티모달 모델 PaLM-E(12B 파라미터)를 활용한 RT-2-PaLM-E예요. 두 모델 모두 사전학습 단계에서 이미 방대한 인터넷 데이터를 학습한 상태였기 때문에, 로봇 시연 데이터를 추가로 학습시키더라도 의미 일반화 능력을 잃지 않았어요.

공동 미세조정(Co-fine-tuning)

연구팀은 로봇 시연 데이터만으로 미세조정할 경우 일반 비전-언어 능력이 빠르게 손상되는 점을 발견했어요. 이를 막기 위해 인터넷 비전-언어 데이터와 로봇 시연 데이터를 같은 비율로 섞어 학습하는 공동 미세조정 기법을 도입했죠. 그 결과 RT-2는 “테이블 위에서 멸종한 동물을 집어 줘” 같은 복잡한 의미적 지시도 처리할 수 있는 능력을 유지하게 됐어요.

RT-2의 일반화 성능과 실험 결과

구글 딥마인드 팀은 RT-2를 6,000회 이상의 평가 시도에서 검증했어요. 핵심 지표는 한 번도 본 적 없는 객체·배경·지시에 대한 성공률이었죠. 직전 세대 모델인 RT-1과 비교했을 때, 새로운 객체에 대한 일반화 성공률이 약 32%에서 62%로 두 배 가까이 향상됐어요. 추론 능력을 요구하는 평가에서는 RT-1이 거의 풀지 못하던 작업을 RT-2가 60% 이상 성공해, 단순한 패턴 매칭을 넘어선다는 점을 입증했어요.

의미 이해를 활용한 추론 능력

RT-2가 가장 인상적이었던 시연은 추상적 지시를 즉석에서 수행하는 장면이었어요. 예를 들어 “내가 망치 대신 쓸 수 있는 물건을 집어 줘”라는 지시에 대해, 책상 위에서 가장 단단해 보이는 돌을 집는 식이었죠. 이는 단순한 라벨 매칭이 아니라, 사전학습으로 얻은 세계 지식을 액션 결정에 결합한 결과예요. 같은 맥락에서 RT-2는 “독일 차” “외계인” “가장 빠른 동물 그림” 같은 의미 풍부한 표현도 처리할 수 있었어요.

체인 오브 소트와 결합한 행동 계획

RT-2는 텍스트 토큰 공간에서 작동하기 때문에, 언어 모델에서 흔히 사용하는 체인 오브 소트(Chain-of-Thought)를 그대로 적용할 수 있어요. 즉 액션을 출력하기 전에 “계획: 컵을 집고 → 물을 따르고 → 컵을 내려놓는다” 같은 단계별 사고를 텍스트로 펼쳤다가, 그 다음에 액션 토큰을 생성하는 방식이죠. 이 구조는 복잡한 다단계 작업의 성공률을 크게 끌어올렸어요.

RT-2 이후 등장한 후속 VLA 모델 흐름

RT-2의 공개 이후 비전-언어-액션 모델은 로보틱스 연구의 주류 패러다임이 됐어요. 구글 딥마인드는 RT-2의 데이터셋을 확장해 22개 로봇 플랫폼의 시연을 모은 Open X-EmbodimentRT-X 시리즈를 공개했고, 다양한 로봇 본체에서도 작동하는 범용 정책의 가능성을 보여 줬어요. 이어서 RT-2-X, RT-Trajectory, AutoRT, RoboCat 같은 후속 작업이 빠르게 등장했죠.

오픈소스 진영의 OpenVLA와 π0

2024년에는 스탠퍼드·도요타 리서치 인스티튜트 연구진이 7B 파라미터 규모의 오픈소스 VLA 모델 OpenVLA를 공개해, 학계가 직접 미세조정할 수 있는 기반을 만들었어요. 같은 해 Physical Intelligence는 흐름 매칭(Flow Matching) 기반의 정책 모델 π0를 발표하며, 다양한 로봇 본체에서 단일 모델이 정교한 조작 작업을 수행하는 사례를 보여 줬어요. RT-2가 열어둔 길을 따라 오픈 생태계가 빠르게 성장한 셈이에요.

휴머노이드와 결합한 거대 모델

2025년 이후로는 NVIDIA의 GR00T, Figure AI의 Helix, Tesla Optimus 팀의 자체 모델 등 휴머노이드 본체와 VLA 모델을 결합한 사례가 잇따르고 있어요. 모두 RT-2가 정립한 “비전-언어 사전학습 + 액션 토큰화 + 공동 미세조정”이라는 기본 공식을 변형해 발전시킨 형태예요. 결국 RT-2는 오늘날 피지컬 AI(Physical AI) 시대의 출발점 역할을 한 모델이라 봐도 무리가 없어요.

RT-2가 산업과 연구에 남긴 시사점

RT-2의 등장은 로보틱스 연구의 데이터 전략, 모델 아키텍처, 평가 방식 모두에 큰 영향을 미쳤어요. 가장 큰 시사점은 로봇 학습이 더 이상 자체 수집 데이터만으로 풀리지 않는다는 점이에요. 인터넷 규모의 비전-언어 사전학습이 로봇 일반화의 결정적 자원이 됐고, 이는 산업계에 데이터 협업과 공유 인프라의 필요성을 환기시켰어요. Open X-Embodiment 같은 협력 데이터셋이 빠르게 확장된 배경이기도 해요.

안전성과 평가 체계의 재정의

VLA 모델이 자연어 지시에 직접 반응하다 보니, 잘못된 지시나 의미가 모호한 입력에 대한 안전 평가가 새로운 과제로 떠올랐어요. 구글 딥마인드는 RT-2 발표 당시부터 “안전한 거절(safe refusal)” 능력을 측정하는 항목을 별도로 두었고, 이후 학계도 비슷한 평가를 표준화하고 있어요. 또한 시뮬레이션-실제 격차(sim-to-real gap)와 함께 “지시 다양성 격차(instruction diversity gap)”라는 새로운 개념도 자리잡고 있어요.

실전 적용 가능성과 한계

RT-2는 분명 강력하지만 한계도 분명해요. 추론 시 모델 크기가 커서 30Hz 수준의 빠른 제어 루프에 직접 사용하기 어렵고, 정밀한 동역학 제어가 필요한 작업에서는 별도의 저수준 컨트롤러가 필요해요. 그래서 최신 시스템들은 VLA 모델을 고수준 정책으로 두고, 그 출력에 맞춰 빠른 임피던스 제어기나 모션 플래너를 결합하는 계층적 구조를 즐겨 사용해요. RT-2는 끝점이 아니라 “비전-언어-액션 통합”이라는 거대한 흐름의 첫 발걸음이라고 볼 수 있어요.

마무리: RT-2가 보여준 미래의 로봇

RT-2 비전 언어 액션 모델의 혁신은 단지 새로운 알고리즘 한 편이 아니라, 로봇이 인터넷 지식을 직접 활용해 행동하는 시대를 연 분기점이라 할 수 있어요. 액션을 토큰으로 다루는 단순한 통찰 하나가 비전-언어 모델의 거대한 사전학습 능력을 로봇으로 옮겨오게 만들었고, 그 결과 로봇이 처음 보는 객체나 추상적인 지시에도 자연스럽게 대응할 수 있게 됐죠. 앞으로 등장할 휴머노이드와 산업용 로봇이 점점 더 사람 같은 적응력을 보여 준다면, 그 출발점에 RT-2가 있었음을 기억해 두면 좋겠어요. 자세한 원문은 위키백과의 Robotic Transformer 2 문서구글 딥마인드 공식 블로그에서 확인할 수 있어요.