로봇이 언어모델처럼 하나의 범용 정책으로 다양한 작업을 해내는 시대가 빠르게 다가오고 있어요. 2024년부터 쏟아지기 시작한 오픈소스 로봇 파운데이션 모델(Robot Foundation Model, RFM)은 2026년 현재 산업 현장과 연구실을 가리지 않고 표준 스택의 한 축으로 자리 잡았어요. 이번 글에서는 오픈소스 RFM의 최신 동향을 정책 구조, 데이터셋, 학습 파이프라인, 대표 프로젝트, 실무 활용까지 한 호흡에 정리해요.
오픈소스 로봇 파운데이션 모델이란 무엇일까요
로봇 파운데이션 모델은 이미지, 언어, 관절 상태, 촉각 등 다양한 모달리티를 입력받아 로봇이 수행할 저수준 액션 시퀀스를 직접 출력하는 대형 신경망이에요. 기존의 태스크 전용 제어기와 달리, 수십 수백 가지 작업을 한 모델 하나로 학습해 일반화 성능을 확보한다는 점이 핵심이에요. 오픈소스 RFM은 여기에 가중치 공개, 학습 코드 공개, 데이터 파이프라인 공개라는 세 가지 조건을 더해 누구든 재현과 파인튜닝이 가능하도록 만든 모델을 의미해요.

왜 오픈소스가 중요한가요
로봇 학습은 한 번의 실험에도 고가의 하드웨어와 수십 시간의 데이터 수집이 필요해요. 중소 연구실이나 스타트업이 GPT-4급 비공개 모델을 그대로 쓰려 해도 파인튜닝이 막혀 있으면 자체 로봇 하드웨어에 맞출 수가 없어요. 오픈소스 RFM은 이 병목을 해결해 주는데, 가중치를 내려받아 자체 데이터로 1~2시간만 파인튜닝해도 상당한 성능을 얻을 수 있다는 보고가 이어지고 있어요.
폐쇄형 모델과의 핵심 차이
구글 딥마인드의 RT-2나 피직컬 인텔리전스(Physical Intelligence)의 일부 상용 모델은 API 호출 형태로만 제공돼 로컬 추론이 불가능해요. 반면 오픈소스 RFM은 온프레미스 GPU에서 직접 추론할 수 있어 제어 루프 지연시간을 수십 ms 수준으로 줄일 수 있어요. 특히 매니퓰레이션처럼 50Hz 이상의 제어 주기가 필요한 작업에서는 이 차이가 성능에 직결돼요.
2026년 주목할 대표 오픈소스 프로젝트
지금 실무에서 가장 많이 채택되는 오픈소스 RFM은 크게 네 갈래로 정리할 수 있어요. Hugging Face 중심의 LeRobot 생태계, 스탠퍼드와 UC버클리가 공개한 OpenVLA 계열, 피직컬 인텔리전스의 π0 공개 가중치, 그리고 경량화에 특화된 SmolVLA 계열이에요. 네 프로젝트 모두 Apache 2.0 또는 MIT 라이선스로 상업적 활용이 가능하다는 공통점이 있어요.
LeRobot 생태계
Hugging Face가 주도하는 LeRobot은 단일 모델이 아니라 데이터셋 포맷, 학습 스크립트, 정책 아키텍처, 시뮬레이터 브릿지를 묶은 종합 플랫폼이에요. SO-100 암로봇처럼 300달러대 저가 하드웨어에서도 수집한 데이터를 LeRobot 포맷으로 업로드하면, 허브에 공개된 수천 개의 에피소드를 함께 활용해 파인튜닝할 수 있어요. 2026년 기준 허브에는 1만 개 이상의 로봇 데이터셋이 등록되어 있어서 초기 데이터 확보 부담이 크게 줄었어요.
OpenVLA와 비전 언어 액션 모델
OpenVLA는 Llama2 7B 백본에 비전 인코더를 붙여 이미지와 자연어 지시문을 액션 토큰 시퀀스로 변환하는 모델이에요. Open X-Embodiment 데이터셋 97만 에피소드로 사전학습되어 있어, 자체 데이터 몇 천 에피소드만 추가해도 새로운 로봇 플랫폼에 잘 적응해요. 파인튜닝 시 LoRA를 사용하면 단일 A100 GPU로도 실용적인 속도가 나와요.
π0와 확산 정책
피직컬 인텔리전스가 2024년 말 공개한 π0는 플로우 매칭(Flow Matching) 기반의 생성형 정책이에요. 50Hz 연속 액션을 50스텝 단위 청크로 뽑아내며, 미분 가능한 연속 공간에서 다중 모달 분포를 자연스럽게 학습해요. 2025년 공개된 π0-FAST는 토크나이저를 개선해 추론 속도를 3배가량 끌어올렸고, 2026년 들어 한국어와 일본어 지시문에도 대응하는 커뮤니티 파인튜닝 버전이 활발히 공유되고 있어요.
SmolVLA와 경량화 흐름
SmolVLA는 450M 파라미터 규모로 CPU 추론까지 염두에 둔 소형 모델이에요. 성능은 OpenVLA 대비 70~80% 수준이지만, 젯슨 오린 급 엣지 디바이스에서 실시간 동작이 가능해 현장 배치에 유리해요. 특히 서비스 로봇이나 교육용 키트처럼 추론 비용이 중요한 도메인에서 채택이 늘고 있어요.
학습 데이터셋과 파이프라인
RFM의 성능은 결국 데이터의 양과 질에서 갈려요. 오픈소스 진영은 이를 해결하기 위해 대규모 협업 데이터셋을 구축했어요. 대표적으로 Open X-Embodiment는 21개 기관이 기여한 22종 로봇, 97만 에피소드를 통합해 공개했고, DROID는 564개 장면에서 수집한 7만 6천 에피소드를 포함해요. 여기에 LeRobot 허브의 커뮤니티 기여분까지 합치면 2026년 기준 누적 300만 에피소드 이상이 자유롭게 활용 가능해요.
텔레오퍼레이션과 데이터 수집
대부분의 데이터는 사람이 로봇을 직접 원격 조종해 만드는 텔레오퍼레이션 방식으로 수집돼요. 마스터-슬레이브 암, VR 컨트롤러, 햅틱 글러브 등 다양한 인터페이스가 쓰이지만, 최근에는 스마트폰 카메라 기반의 저비용 수집 도구도 등장해 진입장벽이 낮아졌어요. LeRobot의 record 커맨드 한 줄로 누구나 표준 포맷 데이터셋을 만들 수 있어요.
시뮬레이션 데이터 증강
실제 로봇 데이터는 수집 비용이 크기 때문에 Isaac Sim, MuJoCo MJX, Genesis 같은 GPU 가속 시뮬레이터를 활용해 데이터를 증강하는 방식이 표준이 되었어요. 특히 Genesis는 2025년 공개된 이후 초당 43만 스텝의 시뮬레이션 속도로 주목받으며, Sim2Real 갭을 줄이는 도메인 무작위화 기법과 결합되어 활용돼요.
- 실제 데이터: 정밀도는 높지만 수집 비용이 크고 다양성 확보 어려움
- 시뮬레이션 데이터: 대량 생성 가능하지만 물리 갭 존재
- 하이브리드: 사전학습은 시뮬, 파인튜닝은 실제로 진행하는 2단계 방식이 주류
정책 아키텍처의 진화
초기 RFM은 트랜스포머 기반의 Action Chunking Transformer(ACT)가 주류였어요. ACT는 짧은 미래 구간의 액션을 한 번에 예측해 분포의 다중모달성을 포착했지만, 연속 제어에서 미세한 진동 문제가 있었어요. 이후 등장한 Diffusion Policy는 노이즈 제거 과정을 통해 부드러운 궤적을 생성했고, 2024~2025년에는 플로우 매칭 계열이 속도와 품질 모두에서 한 단계 올라섰어요.
비전 언어 액션 통합
2026년 현재의 흐름은 VLA(Vision-Language-Action) 통합 구조예요. 사전학습된 대형 VLM에 액션 헤드를 붙여 언어 이해력과 상식 추론을 로봇 제어로 그대로 이식하는 방식이에요. 예를 들어 “빨간 컵을 파란 접시 위에 올려줘”처럼 조합적인 지시문을 새로운 환경에서도 수행할 수 있게 되었어요. 이는 기존 태스크 전용 정책과 가장 큰 차별점이에요.
청킹과 계층적 정책
저수준 모터 제어와 고수준 작업 계획을 한 모델이 감당하기 어렵다는 문제의식에서 계층적 정책이 다시 주목받고 있어요. 고수준 모델이 서브태스크를 토큰으로 출력하면, 저수준 정책이 이를 실제 관절 각도로 풀어내는 구조인데, 2026년 공개된 HiRT, Helix 등의 구조가 이 계열에 속해요. 오픈소스 구현체도 점차 늘고 있어요.
실무 활용 시나리오와 도입 전략
그럼 현장에서는 어떻게 오픈소스 RFM을 도입하면 좋을까요. 2026년 기준 권장 파이프라인은 저가 하드웨어 + LeRobot 수집 + OpenVLA 또는 π0 파인튜닝 + Isaac Sim 검증 순서예요. 전체 사이클을 2~3주 안에 돌릴 수 있는 작업이 많아졌고, 실제로 제조 현장의 품질검사, 물류의 피스피킹, 연구실의 프로토타입 제작에 폭넓게 적용되고 있어요.
하드웨어 선택과 데이터 예산
초기 PoC라면 SO-100, Koch v1.1, AgileX PiPer 같은 1,000달러 이하의 학습용 암로봇으로 시작하길 권해요. 작업 하나당 50~200에피소드가 있으면 OpenVLA를 LoRA로 파인튜닝해 쓸 만한 성능이 나와요. 본격적인 양산형 태스크에서는 1,000에피소드 이상, 여러 조명과 배경이 섞인 데이터가 필요해요.
안전과 평가 지표
RFM은 확률적으로 액션을 샘플링하기 때문에 드물게 예기치 못한 동작이 나와요. 현장 적용 시에는 반드시 속도 제한, 역관절 임계값, 토크 리미터 같은 하드웨어 가드가 필요해요. 평가는 태스크 성공률과 궤적 부드러움, 실패 복구율을 함께 봐야 하고, 가능하면 사람 평가자 블라인드 A/B 테스트를 권해요.
- 타깃 태스크 정의와 성공 기준 수립
- 텔레오퍼레이션으로 100에피소드 이상 수집
- 오픈소스 RFM 중 하드웨어 호환 모델 선정
- LoRA 파인튜닝 후 시뮬레이터에서 검증
- 실제 로봇 배치 및 반복 평가, 실패 케이스 재수집
한계와 앞으로의 과제
오픈소스 RFM이 빠르게 성숙했지만 아직 해결해야 할 숙제도 많아요. 첫째, 롱호라이즌 과제에서의 안정성이에요. 10분 이상 이어지는 복합 태스크는 여전히 성공률이 50%대에 머물러요. 둘째, 촉각과 힘 제어처럼 비시각 모달리티 통합이 부족해요. 셋째, 안전성 검증을 위한 표준 벤치마크가 아직 미흡해요. 이 세 방향이 2026년 후반과 2027년의 핵심 연구 주제가 될 가능성이 높아요.
데이터 품질과 편향
오픈 데이터셋 규모가 커질수록 편향된 상황 분포가 문제로 떠올라요. 데이터 대부분이 실험실의 정돈된 환경에서 수집되다 보니 실제 가정이나 창고 환경의 잡다한 상태에는 적응이 약해요. 커뮤니티 차원의 체계적 수집 프로토콜, 메타데이터 태깅이 점차 중요해질 거예요.
연산 자원과 추론 최적화
7B 파라미터 VLA를 50Hz로 돌리려면 여전히 A100 수준의 GPU가 필요해요. 엣지 배치를 위해 증류, 양자화, KV 캐시 최적화 같은 추론 기법이 활발히 연구되고 있어요. SmolVLA, MobileVLA처럼 경량 모델과 FlashAttention-3, TensorRT-LLM 같은 런타임 최적화가 결합되면 1~2년 내에 젯슨 급에서도 충분한 성능이 가능해질 거예요.
결론과 시사점
오픈소스 로봇 파운데이션 모델은 불과 2년 만에 연구 호기심에서 실전 스택으로 자리바꿈했어요. LeRobot, OpenVLA, π0, SmolVLA 같은 대표 프로젝트는 서로 경쟁하면서도 데이터셋과 학습 기법을 공유해 생태계 전체를 가파르게 끌어올리고 있어요. 기업이든 개인 연구자든 2026년 이 시점은 로봇 지능 개발에 진입하기 가장 좋은 타이밍이에요. 자체 하드웨어에서 1,000달러 미만의 투자와 며칠간의 데이터 수집만으로도 의미 있는 작업을 수행하는 정책을 만들어 볼 수 있어요. 관련 자료는 Hugging Face LeRobot 허브와 Open X-Embodiment 프로젝트 페이지에서 확인할 수 있어요.