Imitation Learning(모방 학습)은 로봇과 AI 에이전트가 사람의 시연을 보고 행동을 그대로 흉내 내며 배우는 기술이에요. Physical AI 시대에 들어서면서 보상 함수를 일일이 설계하기 어려운 실세계 작업이 폭발적으로 늘고 있고, 이때 가장 빠르게 정책(policy)을 만들어 내는 수단으로 모방 학습이 다시 주목받고 있어요. 이 글에서는 모방 학습의 기본 개념과 대표적인 알고리즘 계열, 그리고 실제 로봇에 적용할 때 자주 부딪히는 함정과 최신 동향까지 입문자가 한 번에 정리할 수 있도록 풀어드릴게요.
모방 학습이란 무엇인가요
Imitation Learning은 전문가(Expert)가 보여 준 상태-행동 쌍을 데이터로 삼아, 비슷한 상황에서 동일한 행동을 출력하도록 정책을 학습시키는 패러다임이에요. 보상을 명시적으로 정의하지 않아도 된다는 점이 강화학습과 가장 큰 차이고, 그래서 매니퓰레이션·자율주행·휴머노이드 보행처럼 보상 설계가 까다로운 영역에서 특히 강점을 발휘해요.
강화학습과 어떻게 다른가요
강화학습(RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 시행착오를 반복해요. 반면 모방 학습은 시연 데이터를 지도학습 문제로 환원하기 때문에 탐색 비용이 들지 않고, 안전상 위험한 행동을 직접 시도하지 않아도 돼요. 단, 데이터에 없는 상태가 들어오면 곧바로 성능이 무너지는 분포 이동(distribution shift) 문제가 따라붙어요.
왜 다시 뜨고 있을까요
최근에는 텔레오퍼레이션 장비, VR 핸드 트래커, 멀티캠 셋업이 저렴해지면서 시연 데이터를 대량으로 모으는 비용이 급감했어요. 동시에 Diffusion Policy, ACT, RT-2 같은 트랜스포머·디퓨전 기반 정책 구조가 등장하면서 수백 개 시연만으로도 복잡한 양손 조작을 학습시키는 사례가 늘었고, 이것이 NVIDIA GR00T·1X·Physical Intelligence(π0) 같은 휴머노이드 파운데이션 모델의 핵심 학습 레시피로 자리 잡았어요.

대표적인 모방 학습 알고리즘 계열
모방 학습은 크게 행동 복제(Behavioral Cloning), 역강화학습(Inverse RL), 적대적 모방학습(GAIL 계열), 그리고 시연 활용 강화학습(RLfD)으로 묶을 수 있어요. 각 계열은 데이터 양, 보상 정의 가능성, 환경 상호작용 가능 여부에 따라 선택 기준이 달라져요.
행동 복제(Behavioral Cloning)
가장 단순하고 빠른 접근이에요. 상태 s를 입력으로 받아 행동 a를 예측하는 지도학습 모델을 그대로 학습시키면 끝이라 구현이 쉬워요. 다만 실행 중 작은 오차가 누적되어 데이터 분포 밖으로 빠져나가는 공변량 이동 문제가 치명적이에요. DAgger처럼 학습 도중 전문가에게 추가 라벨링을 받는 방식, 또는 액션 청크(action chunking)와 시퀀스 예측으로 오차 누적을 억제하는 ACT가 이 한계를 보완해요.
역강화학습과 GAIL
역강화학습(IRL)은 시연으로부터 거꾸로 보상 함수를 추정한 뒤, 그 보상을 최적화하는 정책을 강화학습으로 다시 학습시켜요. 일반화 성능은 좋지만 계산 비용이 무겁다는 단점이 있어요. GAIL(Generative Adversarial Imitation Learning)은 GAN처럼 판별기와 정책을 동시에 학습시켜 IRL의 양 단계를 하나로 합쳐 효율을 끌어올린 방법이에요.
Diffusion Policy와 트랜스포머 기반 정책
2023년 이후 가장 빠르게 성장한 계열이에요. 디퓨전 모델로 행동 시퀀스 자체를 샘플링하면 다중 모드(multi-modal) 행동을 그대로 표현할 수 있어, 같은 상태에서 여러 합리적 행동이 존재하는 매니퓰레이션에 특히 강해요. 트랜스포머 기반 ACT, RT-2, OpenVLA 같은 비전-언어-행동(VLA) 모델이 이 흐름을 이어 가며 사실상 표준 베이스라인으로 자리 잡았어요.
데이터 수집과 시연 품질이 모든 것을 결정해요
모방 학습에서 가장 흔한 실패 원인은 알고리즘이 아니라 데이터예요. 시연자의 일관성, 시점(view) 다양성, 실패 회복 시연의 포함 여부가 정책 성능을 좌우해요. 산업계에서는 보통 ALOHA·GELLO 같은 양손 텔레오퍼레이션 장비, 또는 Apple Vision Pro·Meta Quest 기반 핸드 트래킹 셋업이 표준으로 자리 잡았어요.
좋은 시연의 조건
- 일관된 속도와 그립: 시연자마다 속도가 들쭉날쭉하면 정책이 평균화되어 어정쩡해져요.
- 실패 회복 데이터: 항상 성공만 모으면 미세한 오차에서 무너져요. 일부러 살짝 어긋난 뒤 복귀하는 시연이 꼭 필요해요.
- 다양한 시점과 조명: 시각 정책은 카메라 위치와 광원에 매우 민감해서 도메인 무작위화가 사실상 필수예요.
- 충분한 양: 단일 작업에 보통 50~200회, 범용 정책엔 수만 회 시연이 사용돼요.
시뮬레이션 시연 vs 실제 시연
시뮬레이터에서 모은 시연은 무한히 늘릴 수 있다는 장점이 있지만, 접촉 모델 차이 때문에 Sim-to-Real 격차가 발생해요. 반대로 실세계 시연은 분포가 정확하지만 비용이 비싸요. 최근에는 두 데이터를 함께 학습시키는 공동 학습(co-training)과 도메인 무작위화가 표준 레시피로 정착하고 있어요.
현장 적용 시 자주 부딪히는 함정
입문자가 모방 학습 파이프라인을 처음 구축할 때 반복적으로 발견되는 패턴이 있어요. 미리 알고 시작하면 수 주의 디버깅 시간을 줄일 수 있어요.
분포 이동과 공변량 이동
시연 데이터에 없는 약간 어긋난 상태가 한 번 등장하면, 그 다음 행동이 또 분포 밖으로 더 멀어지는 악순환이 생겨요. 이를 줄이려면 행동을 한 스텝이 아니라 청크 단위로 예측하거나, DAgger처럼 정책 롤아웃 도중 전문가 라벨을 추가로 받는 보강 학습 루프를 짜는 게 효과적이에요.
인과 혼동(Causal Confusion)
모델이 시연자가 무심코 흘린 단서(예: 손목 자세)와 같은 우연한 상관관계를 진짜 인과로 학습해 버리는 현상이에요. 입력에서 의도적으로 정보를 가리거나, 다양한 카메라 시점을 사용해 가짜 상관관계를 깨뜨리는 식으로 완화할 수 있어요.
안전과 평가 프로토콜
실로봇 평가는 비싸고 위험해요. 시뮬레이션에서 1차 검증 후 실세계로 넘어가는 단계적 평가, 그리고 작업당 최소 20~50회 롤아웃의 성공률을 보고하는 표준 프로토콜이 사실상 필수예요. 특히 양손 매니퓰레이션은 회당 변동성이 커서 단일 시연에 의존한 평가는 거의 의미가 없어요.
2025년 이후 최신 동향
지금 이 분야는 학습 데이터 규모와 정책 일반화의 한계를 동시에 밀어 올리는 시기에 들어섰어요. 단일 작업 학습에서 범용(generalist) 정책으로의 전환이 가장 뚜렷한 흐름이에요.
Vision-Language-Action(VLA) 모델의 부상
RT-2, OpenVLA, π0, GR00T N1 같은 모델은 인터넷 규모 비전-언어 사전학습 위에 모방 학습 시연을 미세 조정해, 자연어 지시만으로 새로운 작업을 수행해요. 모방 학습이 대형 파운데이션 모델의 마지막 단계로 흡수되는 흐름이라고 볼 수 있어요.
휴머노이드와 양손 매니퓰레이션
Figure 02, 1X NEO, Tesla Optimus, Unitree G1 같은 플랫폼이 양산 단계에 진입하면서, 양손 텔레오퍼레이션으로 모은 데이터를 디퓨전 정책이나 VLA 모델로 학습시키는 파이프라인이 사실상 표준이 되고 있어요. 시연 데이터 자체가 새로운 자산으로 거래되는 시장도 형성되고 있어요.
오픈소스 생태계
Hugging Face의 LeRobot, ALOHA·Mobile ALOHA, OpenVLA 등 강력한 오픈 코드와 데이터셋이 풀려 있어 입문자도 몇 주 안에 베이스라인을 재현할 수 있어요. 추가 학습용 공공 데이터셋으로는 Open X-Embodiment가 가장 광범위해요.
마무리하며
Imitation Learning은 보상 설계의 부담을 데이터 수집의 부담으로 옮긴 기술이에요. 알고리즘은 이미 행동 복제·디퓨전 정책·VLA 모델까지 충분히 발전했고, 이제는 시연 데이터의 품질·다양성·재현 가능한 평가 프로토콜이 성패를 가르는 단계에 들어섰어요. 처음 시작한다면 ALOHA 류의 텔레오퍼레이션과 Diffusion Policy 또는 ACT를 베이스라인으로 잡고, DAgger와 도메인 무작위화로 분포 이동을 잡는 순서가 가장 안전한 출발점이에요. 자세한 학술적 정의와 분류는 Wikipedia Imitation Learning 문서에서 확인할 수 있어요.