Figure AI 로봇은 어떻게 학습하는가 — 모방학습부터 강화학습까지 완전 해설

로봇이 처음으로 혼자 커피를 내리는 장면을 보셨나요? 2024년 Figure AI가 공개한 영상에서 Figure 01 로봇은 테이블 위의 사과를 집어 건네고, 쓰레기를 분류하며, 설거지통에 그릇을 넣는 일련의 동작을 군더더기 없이 수행했어요. 도대체 이 로봇은 어떻게 이런 동작을 배웠을까요? 이 글에서는 Figure AI 로봇이 사용하는 핵심 학습 방법론을 단계별로 풀어 설명할게요.

Figure AI란 어떤 회사인가요?

창업 배경과 목표

Figure AI는 2022년 브렛 애드콕(Brett Adcock)이 설립한 미국의 로보틱스 스타트업이에요. 핵심 목표는 단순합니다. 인간의 형태를 한 범용 이족 보행 로봇, 즉 휴머노이드 로봇을 실제 산업 현장에 투입하는 것이에요. “노동력 부족 문제를 로봇으로 해결한다”는 명제 아래 설립 이후 수억 달러의 투자를 유치했고, BMW 공장 협업을 통해 실용성을 증명해 나가고 있어요.

Figure 01과 Figure 02

1세대 모델인 Figure 01은 키 167cm, 무게 60kg으로 설계된 최초의 프로토타입이에요. 2024년 3월 공개된 OpenAI와의 협업 시연 영상이 전 세계의 주목을 받았죠. 이후 공개된 Figure 02는 더욱 세련된 손가락 관절과 향상된 처리 속도를 자랑해요. 두 모델 모두 아래에서 설명할 공통된 학습 파이프라인을 공유하고 있어요.

OpenAI와의 협업이 갖는 의미

Figure AI는 OpenAI와의 파트너십을 통해 대형 언어 모델(LLM)을 로봇 두뇌의 상위 의사결정 레이어로 통합했어요. “사과를 가져다 줘”라는 자연어 명령을 이해하고, 어떤 동작 시퀀스를 실행해야 하는지 계획하는 역할을 LLM이 담당하는 구조예요. 이처럼 언어 모델과 운동 제어를 결합하는 접근법은 Physical AI의 최전선에 서 있어요.

Figure AI 로봇 학습 방식을 보여주는 인공지능 로봇 이미지
Photo by Brett Jordan on Unsplash

모방학습(Imitation Learning)의 원리

시연 데이터 수집 방법

Figure AI 로봇의 첫 번째 학습 단계는 모방학습이에요. 인간 조작자가 원격 조종 장치나 데이터 장갑을 착용하고 원하는 동작을 직접 수행하면, 로봇이 그 궤적 데이터를 녹화해요. 관절 각도, 힘 센서 값, 카메라 영상이 동기화되어 하나의 시연(demonstration) 데이터셋을 구성하죠. 수백 번의 시연이 쌓이면 로봇은 이 데이터로부터 행동 패턴을 추출하기 시작해요.

행동 복제(Behavior Cloning)

가장 기본적인 모방학습 방법은 행동 복제(Behavior Cloning)예요. 카메라 영상과 센서 데이터를 입력으로 받아 인간이 취했던 행동(관절 속도, 그리퍼 힘)을 출력하는 신경망을 지도 학습 방식으로 훈련하는 거예요. 간단하고 빠르게 적용할 수 있다는 장점이 있지만, 시연 데이터에 없는 새로운 상황에서는 예측 오류가 누적되어 실패하는 분포 이탈(distribution shift) 문제가 있어요.

DAgger와 반복 시연

분포 이탈 문제를 해결하기 위해 연구자들은 DAgger(Dataset Aggregation) 기법을 사용해요. 로봇이 실제로 배운 정책을 실행하다가 불확실한 상황에 처하면, 인간 전문가가 개입해 올바른 행동을 다시 알려주고 그 데이터를 기존 데이터셋에 추가하는 거예요. 이 과정을 반복하면 로봇은 점점 더 넓은 범위의 상황을 처리할 수 있게 돼요.

강화학습(Reinforcement Learning)으로의 발전

보상 함수 설계의 어려움

모방학습만으로는 완벽한 행동을 만들기 어려워요. 그래서 Figure AI는 강화학습(RL)을 결합해요. 강화학습에서 로봇은 시행착오를 통해 보상 신호를 최대화하는 정책을 스스로 발견해요. 그런데 이족 보행 로봇의 경우 “자연스럽게 걷기”나 “물건을 떨어뜨리지 않기”와 같은 목표를 수치화하는 보상 함수 설계가 매우 까다로워요. 잘못 설계된 보상 함수는 로봇이 예상치 못한 편법을 사용하게 만들 수 있거든요.

시뮬레이터 활용과 Sim-to-Real 이전

현실 세계에서 강화학습을 직접 수행하면 로봇이 자주 넘어지고 파손될 수 있어요. 이 문제를 해결하기 위해 MuJoCoNVIDIA Isaac Gym 같은 물리 시뮬레이터 안에서 수백만 번의 에피소드를 가상으로 실행해요. 시뮬레이터에서 학습한 정책을 현실 로봇에 이전하는 과정을 Sim-to-Real 이전이라 해요. 시뮬레이터와 현실 사이의 물리 특성 차이(Reality Gap)를 줄이기 위해 도메인 무작위화(domain randomization) 기법도 함께 적용돼요.

PPO와 SAC 알고리즘

Figure AI 계열의 로봇 훈련에 자주 등장하는 알고리즘은 PPO(Proximal Policy Optimization)SAC(Soft Actor-Critic)예요. PPO는 정책 업데이트 폭을 제한해 안정적인 학습을 유도하고, SAC는 탐색과 활용의 균형을 엔트로피 기반으로 조절해요. 이족 보행처럼 연속적인 동작 공간에서 두 알고리즘 모두 높은 성능을 보여줘요. 자세한 알고리즘 원리는 OpenAI Spinning Up 공식 문서에서 확인할 수 있어요.

신경망 아키텍처와 멀티모달 제어

비전-언어-행동 모델(VLA)

Figure AI의 가장 혁신적인 기술 중 하나는 비전-언어-행동 모델(Vision-Language-Action model, VLA)이에요. 카메라에서 들어오는 시각 정보(Vision)와 자연어 명령(Language)을 동시에 처리해 실제 관절 토크와 그리퍼 명령(Action)을 생성하는 통합 신경망이에요. 구글 DeepMind의 RT-2 연구에서 영감을 받은 이 구조는 언어 이해 능력과 운동 제어를 하나의 파라미터 공간에서 학습할 수 있게 해줘요.

트랜스포머 기반 정책 네트워크

전통적인 로봇 제어는 LSTM 같은 순환 신경망(RNN)을 사용했어요. 최근에는 트랜스포머(Transformer) 아키텍처가 로봇 정책 네트워크로 급부상했어요. 어텐션 메커니즘을 통해 과거 동작 시퀀스와 현재 시각 입력의 관계를 더 잘 파악하고, 멀리 떨어진 시간 단계의 상태 정보도 효과적으로 활용할 수 있거든요. Figure AI의 내부 모델도 트랜스포머 기반 구조를 채택한 것으로 알려져 있어요.

촉각 센서와 다감각 융합

물건을 집을 때 단순히 “얼마나 세게 쥐어야 하는가”라는 문제는 생각보다 복잡해요. Figure 02의 손가락에는 촉각 센서(tactile sensor)가 내장되어 있어요. 카메라 영상, 고유 감각(proprioception), 촉각 피드백을 통합하는 다감각 융합(multimodal sensor fusion)은 섬세한 조작 작업에 필수적이에요. 이러한 다감각 데이터를 실시간으로 처리하려면 경량화된 신경망 추론 파이프라인이 요구돼요.

실세계 배포와 지속 학습

BMW 공장 배포 사례

2024년 Figure AI는 BMW 스파르탄버그 공장에 Figure 01 로봇을 배치해 차체 부품 이송 작업을 수행했어요. 이 사례는 단순한 시연을 넘어 실제 산업 환경에서의 운용 가능성을 입증한 중요한 이정표예요. 공장 내 조명 변화, 부품 위치 편차, 작업자와의 협업 등 시뮬레이터에서 완전히 재현하기 어려운 상황을 극복하며 데이터를 축적했어요.

온라인 학습과 플리트 러닝

여러 대의 로봇을 동시에 운용하면 방대한 실세계 데이터를 빠르게 수집할 수 있어요. 플리트 러닝(fleet learning)은 각 로봇이 경험한 데이터를 중앙 서버로 전송해 공유 정책을 업데이트하고, 개선된 정책을 다시 각 로봇에 배포하는 방식이에요. 마치 테슬라 자율주행이 수백만 대의 차량 데이터를 활용하는 것과 같은 원리예요. 이를 통해 로봇은 배포 이후에도 지속적으로 성능이 향상되는 온라인 학습이 가능해져요.

안전성과 정렬(Alignment)

산업 현장에 투입되는 로봇에서 안전은 타협할 수 없는 가치예요. Figure AI는 학습된 정책이 물리적 한계(관절 토크 한계, 충돌 감지)를 위반하지 않도록 안전 제약 강화학습(Safe RL)을 적용해요. 또한 LLM 기반 상위 레이어에서도 사람에게 해가 되는 명령을 거부하는 정렬(alignment) 메커니즘이 통합되어 있어요. 이 분야는 Anthropic의 AI 안전 연구와도 밀접한 연관이 있어요.

마무리: Figure AI 학습 방식이 시사하는 것들

Figure AI 로봇의 학습 파이프라인은 모방학습 → 강화학습 → 실세계 배포 → 플리트 러닝의 선순환 구조예요. 단순한 한 가지 알고리즘이 아니라 여러 기법의 유기적인 결합이 핵심이에요. 특히 LLM과 VLA 모델의 통합은 로봇이 단순 반복 작업을 넘어 언어로 지시할 수 있는 범용 도구로 진화하고 있음을 보여줘요. Physical AI 시대의 문이 서서히 열리고 있는 지금, 이 기술의 발전 방향을 이해하는 것은 미래를 준비하는 데 매우 중요한 통찰이 될 거예요.