로봇이 눈으로 보고, 언어로 이해하고, 몸으로 행동한다면 어떨까요? 이 질문에 답하는 기술이 바로 VLA(Vision-Language-Action) 모델입니다. 최근 몇 년간 AI 연구 최전선에서 급속도로 발전한 VLA 모델은, 로봇공학과 대형 언어 모델(LLM)의 만남이 만들어낸 가장 뜨거운 성과 중 하나예요. 이 글에서는 VLA 모델이 어디서 출발했는지, 어떻게 진화해 왔는지, 그리고 앞으로 Physical AI 시대에 어떤 역할을 맡게 될지 깊이 있게 살펴보겠습니다.
VLA 모델이란 무엇인가

세 가지 모달리티의 통합
VLA 모델은 이름 그대로 세 가지 핵심 요소를 하나의 신경망으로 통합한 구조입니다. Vision(시각)은 카메라나 센서로 주변 환경을 인식하는 능력이고, Language(언어)는 자연어 지시를 이해하고 추론하는 능력입니다. 마지막으로 Action(행동)은 인식한 환경과 언어 지시를 바탕으로 로봇의 실제 물리적 동작을 생성하는 능력이에요.
기존 로봇 제어 시스템은 이 세 요소를 별도 모듈로 분리하여 처리했습니다. 하지만 VLA는 end-to-end 방식으로 세 요소를 통합 처리함으로써, 복잡한 파이프라인 없이도 “탁자 위의 빨간 컵을 집어서 왼쪽 서랍에 넣어줘”와 같은 자연어 명령을 직접 로봇 동작으로 변환할 수 있습니다.
왜 지금 주목받는가
VLA 모델이 지금 이 시기에 주목받는 이유는 두 가지 기술적 조류가 합류했기 때문입니다. 하나는 GPT, LLaMA와 같은 대형 언어 모델의 비약적 발전이고, 다른 하나는 트랜스포머(Transformer) 아키텍처가 텍스트를 넘어 이미지·오디오 등 다양한 모달리티로 확장된 것입니다. 이 두 흐름이 만나면서 로봇이 사람의 언어를 이해하고 세계를 인식하여 행동하는 ‘범용 로봇 두뇌’의 꿈이 현실로 다가오고 있어요.
기존 로봇 제어와의 차이
전통적인 로봇 제어는 수작업으로 규칙을 코딩하거나 특정 작업에 특화된 강화학습 정책을 훈련시키는 방식이었습니다. 이 방식은 환경이 조금만 바뀌어도 성능이 급격히 저하되는 취약점이 있었죠. 반면 VLA 모델은 대규모 다양한 데이터로 사전 훈련된 후 소량의 추가 데이터로 미세조정하는 방식을 사용하기 때문에, 새로운 환경과 작업에 훨씬 유연하게 적응할 수 있습니다.
VLA 모델의 역사적 계보
언어 조건부 모방학습의 시작 (2019~2021)
VLA의 뿌리는 2019년경 등장한 언어 조건부 모방학습(Language-Conditioned Imitation Learning) 연구에서 찾을 수 있습니다. 이 시기의 대표적인 연구로는 BC-Z(Behavior Cloning with language Zero-shot)가 있는데, 로봇이 언어 지시를 이해하여 새로운 작업에 제로샷으로 일반화할 수 있음을 보여주었습니다.
같은 시기에 CLIPort와 같은 연구들도 언어와 시각 정보를 결합하여 탁상 조작 작업을 수행하는 모델을 선보였습니다. 이 초기 연구들은 규모가 작고 적용 범위가 좁았지만, “로봇이 말을 알아들을 수 있다”는 가능성을 처음으로 체계적으로 증명했다는 점에서 의의가 큽니다.
대규모 데이터와 트랜스포머의 결합 (2022~2023)
2022년은 VLA 발전사에서 중요한 전환점이었습니다. 구글 딥마인드가 발표한 SayCan은 LLM의 언어 이해 능력과 로봇의 실행 가능성 점수를 결합하는 방법론을 제시했어요. SayCan은 “냉장고에서 음료를 꺼내줘”와 같은 장기 계획이 필요한 지시도 단계별로 분해하여 수행할 수 있음을 보여주었습니다.
같은 해 발표된 RT-1(Robotics Transformer 1)은 VLA 역사에서 획기적인 이정표였습니다. 구글이 130,000개 이상의 실제 로봇 시연 데이터로 훈련한 RT-1은 700가지 이상의 다양한 작업을 97% 이상의 성공률로 수행했습니다. 특히 중요한 것은 트랜스포머 아키텍처를 로봇 행동 예측에 성공적으로 적용했다는 점입니다.
2023년에는 PaLM-E가 등장했습니다. 5,620억 개의 파라미터를 가진 PaLM-E는 언어, 시각, 로봇 행동을 통합한 최초의 대형 다중모달 로봇 모델로, 로봇 제어 외에도 일반적인 VQA(시각 질의응답)와 수학 추론까지 수행할 수 있었습니다.
RT-2와 범용화의 시대 (2023)
2023년 구글 딥마인드가 발표한 RT-2(Robotics Transformer 2)는 VLA 분야의 게임 체인저였습니다. RT-2는 인터넷 규모의 텍스트·이미지 데이터로 사전 훈련된 대형 비전-언어 모델(VLM)을 로봇 행동 예측에 직접 적용한 최초의 사례였어요. 웹 데이터에서 습득한 상식과 추론 능력을 로봇 제어에 그대로 활용할 수 있다는 것을 증명한 획기적인 성과였습니다.
RT-2는 학습 데이터에 없던 새로운 개념도 이해할 수 있는 제로샷 일반화 능력을 보여주었습니다. 예를 들어 “공룡이 멸종한 원인을 상징하는 물체를 집어줘”와 같은 복잡한 추론이 필요한 명령도 처리할 수 있었죠. 이는 VLM에서 습득한 세계 지식이 로봇 동작으로 이전된다는 것을 의미합니다.
2024년 이후 주요 VLA 모델들
OpenVLA와 오픈소스 생태계
2024년은 VLA의 오픈소스화 원년이었습니다. 스탠퍼드 대학교와 UC 버클리 등이 공동 개발한 OpenVLA는 7B 파라미터 규모의 오픈소스 VLA 모델로, 이전의 폐쇄형 구글 모델들과 달리 연구자 누구나 자유롭게 사용하고 미세조정할 수 있게 되었습니다. OpenVLA는 BridgeData V2와 Open X-Embodiment 데이터셋으로 훈련되었으며, RT-2와 비교해도 손색없는 성능을 보여주었어요.
오픈소스 VLA의 등장은 연구 생태계를 크게 활성화했습니다. 소규모 대학 연구실이나 스타트업도 자신들의 특화 데이터로 VLA를 미세조정하여 특수 목적 로봇에 적용할 수 있게 되었기 때문입니다.
구현 효율화: π0와 경량화 연구
Physical Intelligence(PI)가 발표한 π0(pi-zero)는 3B 파라미터의 PaliGemma VLM 백본에 흐름 매칭(Flow Matching) 기반의 행동 디코더를 결합한 구조입니다. π0는 세탁물 접기, 테이블 세팅, 박스 조립 등 복잡한 조작 작업에서 뛰어난 성능을 보였으며, 특히 실시간 제어에 필요한 고주파 행동 생성 능력이 주목받았습니다.
또한 HPT(Heterogeneous Pre-Trained Transformers)와 같이 다양한 로봇 형태와 센서 조합에서 학습된 데이터를 통합 활용할 수 있는 이기종 아키텍처 연구도 활발히 진행되었습니다. 이는 “하나의 모델, 모든 로봇”이라는 목표에 한 걸음 가까워진 성과입니다.
Gemini Robotics와 멀티모달 확장
2025년 구글 딥마인드는 Gemini Robotics를 발표했습니다. Gemini 2.0을 기반으로 한 이 모델은 기존 RT 시리즈를 뛰어넘는 언어 이해 깊이와 3D 공간 추론 능력을 갖추었습니다. 특히 Gemini Robotics-ER(Embodied Reasoning) 버전은 복잡한 멀티스텝 조작 작업에서 인간 수준에 근접한 성능을 보여주었으며, 실시간 대화를 통해 작업 중 발생하는 예외 상황을 처리하는 능력도 향상되었습니다.
VLA를 가능하게 하는 핵심 기술들
대규모 로봇 데이터셋
VLA 모델의 성능은 훈련 데이터의 품질과 다양성에 크게 의존합니다. 이를 위해 구글 딥마인드 주도로 여러 기관이 협력하여 구축한 Open X-Embodiment(OXE) 데이터셋이 핵심 역할을 하고 있습니다. OXE는 22개 기관의 22가지 로봇 형태에서 수집한 100만 개 이상의 시연 에피소드를 포함하고 있어요.
데이터 수집의 새로운 방식도 등장했습니다. ALOHA와 같은 저비용 양손 조작 시스템을 활용한 텔레오퍼레이션 데이터 수집, 시뮬레이션과 실제 환경 간의 sim-to-real 이전 기법, 그리고 로봇이 스스로 데이터를 생성하는 자율 데이터 수집 방법 등이 적극 활용되고 있습니다.
행동 표현과 디코딩 방식
VLA에서 ‘행동’을 어떻게 표현하고 예측하느냐는 매우 중요한 기술적 선택입니다. 초기 모델들은 로봇의 관절 각도나 엔드이펙터 위치를 이산화(discretization)하여 토큰으로 표현하는 방식을 사용했습니다. RT-2가 이 방식을 대표하며, 행동 값을 텍스트 토큰처럼 처리하여 언어 모델의 출력 헤드를 그대로 재사용했죠.
최근에는 확산(Diffusion) 기반이나 흐름 매칭(Flow Matching) 기반 행동 디코더를 VLA 백본에 연결하는 방식이 각광받고 있습니다. 이 방식은 연속적이고 부드러운 행동 궤적을 생성하는 데 유리하며, π0가 채택한 접근법이기도 합니다.
계층적 제어와 장기 계획
단일 VLA 모델만으로는 장기 계획이 필요한 복잡한 작업을 처리하기 어렵습니다. 이를 해결하기 위해 계층적 제어(Hierarchical Control) 구조가 활용됩니다. 상위 레벨의 LLM이 작업을 단계별로 분해하고, 하위 레벨의 VLA 모델이 각 단계의 저수준 동작을 실행하는 방식이에요. SayCan이 초기 형태를 보여주었고, 이후 Code as Policies, Voyager 등의 연구로 발전했습니다.
현재의 한계와 도전 과제
데이터 부족과 일반화 문제
VLA 모델이 직면한 가장 큰 도전은 데이터 부족입니다. 언어 모델 훈련에 사용되는 인터넷 텍스트 데이터는 수조 토큰에 달하지만, 로봇 행동 데이터는 비교할 수 없을 만큼 부족합니다. 로봇 시연 데이터는 수집 비용이 높고 시간이 많이 걸리기 때문이에요. 이로 인해 현재 VLA 모델들은 특정 로봇 플랫폼이나 환경에서의 일반화 능력이 제한적입니다.
실시간 추론과 컴퓨팅 비용
대형 VLA 모델은 수십억 개의 파라미터를 가지고 있어 추론에 상당한 컴퓨팅 자원이 필요합니다. 로봇 제어는 일반적으로 초당 10~50Hz의 높은 빈도로 행동을 생성해야 하는데, 현재 대형 VLA 모델들은 이 요건을 충족하기 어렵습니다. 경량화, 양자화, 지식 증류 등의 기법이 연구되고 있지만, 성능과 속도 사이의 균형을 맞추는 것이 과제입니다.
안전성과 강건성
실제 물리 세계에서 동작하는 로봇의 특성상 안전성은 매우 중요한 문제입니다. VLA 모델은 예상치 못한 입력에 취약하거나 분포 이동(distribution shift) 시 예측 불가능한 행동을 할 수 있습니다. 또한 언어 지시의 모호성을 잘못 해석하여 의도치 않은 동작을 수행할 위험도 있습니다. 이러한 안전성 문제를 해결하기 위한 형식적 검증 방법과 실시간 모니터링 기술 연구가 진행 중이에요.
Physical AI 시대에서 VLA의 미래
범용 로봇 두뇌를 향하여
VLA 모델 연구의 궁극적인 목표는 어떤 로봇 플랫폼에서든, 어떤 환경에서든, 어떤 작업이든 수행할 수 있는 범용 로봇 두뇌를 만드는 것입니다. GPT-4나 Gemini처럼 다양한 도메인에 적용 가능한 범용 AI 모델이 언어 영역에서 실현된 것처럼, Physical AI 영역에서도 이에 해당하는 모델이 등장할 것으로 기대됩니다.
이를 위해 연구자들은 Internet-scale 텍스트·이미지 데이터에서 습득한 세계 지식과 추론 능력을 로봇 행동으로 최대한 이전하는 방법, 적은 시연 데이터로도 새로운 작업에 빠르게 적응하는 소수샷 학습(few-shot learning) 방법, 그리고 시뮬레이션에서 대규모로 훈련 후 실제 로봇에 이전하는 방법을 연구하고 있습니다.
산업·가정용 로봇으로의 전개
VLA 기술은 단순한 연구실 실험을 넘어 실제 산업 현장과 가정으로 확산되고 있습니다. Amazon은 물류 창고에서 VLA 기반 로봇을 시험 운용 중이며, Figure AI, Apptronik, Agility Robotics 등 휴머노이드 로봇 스타트업들도 VLA를 핵심 제어 기술로 채택하고 있습니다. 가정용 로봇 분야에서는 집 안 정리, 요리 보조, 노인 돌봄 등의 응용이 기대되고 있어요.
특히 Tesla Optimus와 같은 인간형 로봇은 VLA 기술의 집약체로서, “사람과 함께하는 범용 노동 로봇”이라는 미래를 향해 빠르게 발전하고 있습니다.
표준화와 벤치마크 정립
VLA 분야가 성숙함에 따라 표준화된 평가 지표와 벤치마크의 필요성도 커지고 있습니다. LIBERO, ALOHA Unleashed, SimplerEnv 등의 벤치마크가 제안되었으며, 연구 커뮤니티가 합의한 공통 평가 체계 수립을 위한 논의가 진행 중입니다. 이는 VLA 기술의 객관적인 진전을 측정하고 연구 방향을 안내하는 데 중요한 역할을 할 것입니다.
결론: VLA가 열어가는 Physical AI의 지평
VLA 모델은 로봇이 인간의 언어를 이해하고 세계를 인식하여 자율적으로 행동하는 꿈에 가장 가까이 다가선 기술입니다. 2019년 언어 조건부 모방학습의 초기 실험에서 출발하여, RT-2의 인터넷 지식 이전, OpenVLA의 오픈소스화, π0와 Gemini Robotics의 고도화에 이르기까지 빠른 속도로 발전해 왔어요. 데이터 부족, 실시간 추론 한계, 안전성 문제 등 아직 해결해야 할 과제가 많지만, 이 분야의 연구 속도와 투자 규모를 볼 때 범용 Physical AI의 실현이 생각보다 빨리 올 수 있다는 기대가 커지고 있습니다.
VLA 기술의 발전을 이해하는 것은 단순히 로봇공학에만 국한된 이야기가 아닙니다. 이는 AI가 디지털 세계를 넘어 물리적 세계로 확장되는 역사적 전환점을 이해하는 것이기도 합니다. 앞으로 VLA 모델이 어떻게 진화하고 우리 삶에 어떤 변화를 가져올지, 지속적으로 주목해 볼 만한 가치가 있습니다.
더 깊이 공부하고 싶다면 RT-2 공식 프로젝트 페이지와 OpenVLA 논문(Semantic Scholar)을 참고해 보세요.