BC-Z 모방학습 베이스라인 완전 정리: 구조부터 후속 연구까지

로봇이 사람의 동작을 보고 따라 배우는 일은 더 이상 미래의 이야기가 아닙니다. 구글이 발표한 BC-Z(Behavior Cloning Zero-shot)는 모방학습(imitation learning) 연구에서 표준 베이스라인으로 자리 잡은 정책 학습 프레임워크예요. 단일 신경망에 다양한 작업을 학습시켜 새로운 작업까지 일반화할 수 있도록 설계된 BC-Z는, 오늘날 RT-1, RT-2, OpenVLA로 이어지는 비전-언어-행동 모델 계보의 출발점이라 해도 과언이 아닙니다. 이번 글에서는 BC-Z의 구조, 학습 절차, 한계와 후속 연구에서의 위치까지 차근차근 정리해 보겠습니다.

BC-Z가 등장한 배경과 문제 정의

전통적인 로봇 조작 정책은 작업마다 별도의 모델을 학습시키는 방식이 일반적이었어요. 컵을 잡는 정책 따로, 서랍을 여는 정책 따로 만드는 식이었죠. 하지만 실제 가정이나 공장처럼 작업 종류가 끝없이 늘어나는 환경에서는 이런 방식이 확장되지 않아요. BC-Z 연구진은 이 문제를 제로샷 작업 일반화(zero-shot task generalization) 관점에서 다시 정의했습니다.

제로샷 일반화의 정의

제로샷이란, 학습 단계에서 한 번도 본 적이 없는 작업을 추가 학습 없이 수행하는 능력을 뜻해요. BC-Z는 약 100여 가지의 조작 작업을 한 모델에 함께 학습시키고, 학습에 포함되지 않은 새로운 작업을 자연어 설명이나 시연 영상만으로 지시했을 때 얼마나 잘 수행하는지를 평가합니다. 이는 단순 모방을 넘어 작업 표현(task representation)을 학습하도록 강제하는 방식입니다.

왜 모방학습이었을까

강화학습은 보상 함수 설계와 시뮬레이션-실제 격차(sim-to-real gap)에서 자유롭지 못해요. 반면 모방학습은 사람이 직접 수집한 시연 데이터를 그대로 학습 신호로 사용하므로 안전하고 표본 효율이 높습니다. BC-Z는 이 장점을 살리면서, 한 작업에 갇히지 않도록 멀티태스크 학습과 작업 임베딩을 결합했어요.

다관절 로봇 팔과 데이터 학습 환경
Photo by ZHENYU LUO on Unsplash

BC-Z 아키텍처와 학습 절차

BC-Z 정책 네트워크는 크게 세 부분으로 구성됩니다. 카메라 이미지를 처리하는 비전 인코더, 작업을 표현하는 작업 임베딩 모듈, 그리고 이들을 받아 매 스텝의 로봇 행동을 출력하는 행동 디코더가 그 주역이에요. 이 단순한 구조가 멀티태스크 모방학습의 성능을 끌어올린 핵심입니다.

비전 인코더와 입력 형식

입력은 일반적으로 손목 카메라 또는 어깨 카메라에서 얻은 RGB 이미지입니다. ResNet 계열의 합성곱 인코더가 시각 특징을 추출하고, 이 특징은 채널 차원에서 작업 임베딩과 결합돼요. 이때 작업 임베딩은 시연 영상이나 자연어 설명 중 어떤 형태로도 제공될 수 있게 설계됐다는 점이 흥미롭습니다.

FiLM 컨디셔닝과 행동 디코더

BC-Z는 FiLM(Feature-wise Linear Modulation) 기법을 활용해 작업 임베딩을 비전 특징에 주입합니다. 채널마다 스케일과 시프트를 학습해 작업 맥락을 시각 특징에 새기는 방식이에요. 이렇게 조건화된 특징은 다층 퍼셉트론과 LSTM을 거쳐 6자유도 엔드이펙터 속도와 그리퍼 명령을 출력합니다. 행동은 절대 위치가 아닌 상대 속도로 표현돼 다양한 시작 자세에서도 안정적으로 동작해요.

데이터 수집과 학습 손실

학습 데이터는 100여 가지 작업, 약 25,000건의 시연으로 구성됐어요. 시연은 사람이 가상현실 컨트롤러로 실제 로봇을 원격 조작하면서 모은 것이었습니다. 손실 함수는 단순 평균제곱오차(MSE) 또는 가우시안 로그우도가 사용되며, 정책은 매 시점의 행동 분포를 회귀합니다. 핵심 트릭은 작업 임베딩을 영상과 언어 양쪽에서 일관되게 학습시키는 공동 임베딩 손실이에요.

제로샷 일반화 성능과 평가 결과

BC-Z 논문에서 가장 주목할 만한 결과는 학습에 포함되지 않은 28개의 새로운 작업에서도 약 24%의 평균 성공률을 달성했다는 점이에요. 단순한 베이스라인 대비 두 배 이상 높은 수치이며, 자연어 명령만으로 지시했을 때조차 의미 있는 동작을 만들어 냈다는 게 핵심입니다. 절대 수치가 화려하지는 않지만, 한 번도 보지 못한 작업이라는 조건을 감안하면 의미가 큽니다.

언어 vs 시연 임베딩 비교

흥미로운 결과 중 하나는 짧은 시연 영상이 자연어 설명보다 일관되게 더 나은 성능을 보였다는 점이에요. 영상이 작업의 시공간적 구조를 더 풍부하게 담기 때문으로 해석됩니다. 다만 자연어 임베딩도 직관적인 작업에서는 충분히 동작했으며, 이후 RT-1과 RT-2가 언어 임베딩으로 무게중심을 옮긴 토대가 됐어요.

실패 모드 분석

실패의 상당수는 미세 조작 단계에서 발생했습니다. 잡기는 성공했지만 목표 위치까지의 경로에서 어긋나거나, 비슷한 외형의 물체를 헷갈리는 경우가 많았어요. 이는 시각 표현이 객체 카테고리 수준에서는 학습됐지만 정밀한 자세 추정과 접촉 동역학까지 학습되지는 않았음을 시사합니다.

BC-Z의 한계와 후속 연구의 방향

BC-Z는 강력한 출발점이지만 분명한 한계도 가지고 있어요. 데이터 분포 밖 상황에서 빠르게 성능이 떨어지는 공변량 이동(covariate shift), 긴 호흡의 다단계 작업에서의 누적 오차, 그리고 언어 이해의 얕은 깊이 등이 대표적입니다. 이 한계들은 후속 연구의 직접적인 출발점이 됐어요.

데이터 스케일링: RT-1과 RT-2

RT-1은 BC-Z의 멀티태스크 학습 아이디어를 13만 건 규모의 데이터로 확장하고 Transformer 백본을 도입했어요. RT-2는 여기에 비전-언어 모델의 사전학습 지식을 결합해 자연어 추론 능력을 정책에 흡수시켰습니다. 둘 다 BC-Z의 골조를 이어받으면서 표현력을 키운 결과물이라 할 수 있어요.

액션 청크와 확산 정책

BC-Z가 매 스텝 행동을 회귀하는 단일 스텝 정책이라면, 이후 등장한 Action Chunking Transformer(ACT)Diffusion Policy는 여러 스텝을 한꺼번에 예측해 누적 오차를 줄였습니다. 또한 행동 분포를 가우시안 단일 모드가 아닌 다중 모드 분포로 모델링해, 사람의 시연이 가진 다양성을 더 잘 표현해요. BC-Z의 약점을 직접 겨냥한 발전입니다.

오픈 데이터셋 시대

2023년 이후 등장한 Open X-Embodiment 데이터셋은 22개 기관, 21개 로봇 플랫폼의 시연을 한곳에 모았어요. BC-Z 시절에는 한 연구실의 데이터만으로 학습이 이뤄졌지만, 이제는 범용 로봇 정책을 공동으로 학습하는 시대로 넘어가고 있습니다. OpenVLA는 이 흐름의 대표적 산출물이에요.

실무자와 연구자가 BC-Z에서 얻을 수 있는 교훈

BC-Z를 단순히 옛 모델로만 보면 놓치는 점이 많아요. 오히려 모방학습 파이프라인을 처음 설계할 때 가장 참고하기 좋은 베이스라인 중 하나입니다. 세 가지 핵심 교훈만 짚어 볼게요.

작업 표현의 추상화 수준

작업을 어떻게 표현하느냐가 정책의 일반화 능력을 좌우합니다. BC-Z는 시연 영상과 언어를 한 임베딩 공간에 정렬시켜, 둘 중 어느 것이 들어와도 같은 의미를 가리키도록 했어요. 새로 정책을 만들 때도, 작업을 어떤 모달리티로 표현하고 어떻게 학습 신호를 통일할지 먼저 설계하는 편이 좋습니다.

데이터 다양성의 우선순위

BC-Z가 보여 준 또 다른 시사점은 작업 가짓수와 다양성이 단일 작업 데이터양보다 일반화에 더 큰 영향을 준다는 것이에요. 즉, 한 작업에 1만 건의 시연을 모으는 것보다 100가지 작업에 100건씩 모으는 편이 정책의 표현력을 키우는 데 유리합니다. 데이터 예산이 제한적일 때 특히 새겨 둘 만한 원칙이에요.

단순한 베이스라인의 가치

최신 모델을 추격하기 전에 BC-Z 수준의 단순 베이스라인을 먼저 구현해 보세요. 새 환경에서 데이터를 모으고, FiLM 컨디셔닝과 단일 스텝 회귀 정책을 학습시켜 보는 과정만으로도 자신의 데이터셋의 한계와 가능성을 빠르게 파악할 수 있어요. 더 정교한 정책의 도입은 그다음이어야 비교의 의미가 살아납니다.

맺으며: BC-Z 이후의 로봇 정책 학습

BC-Z는 화려한 최신 모델은 아니지만, 멀티태스크 모방학습이라는 발상의 씨앗을 뿌린 연구예요. 작업 임베딩, 시연-언어 공동 학습, FiLM 컨디셔닝이라는 세 기둥은 RT-1, RT-2, OpenVLA로 이어지는 현대 비전-언어-행동 모델의 어휘 안에 그대로 살아 있습니다. 새로운 로봇 정책 연구를 시작하는 분이라면, BC-Z 논문을 한 번 정독하고 자신의 베이스라인으로 직접 재현해 보길 권합니다. 가장 빠르게 분야의 좌표를 잡는 방법이에요.

더 깊은 배경 지식이 필요하다면 위키피디아의 모방학습 문서BC-Z 프로젝트 페이지를 함께 살펴보세요. 시연 영상과 정량 평가 자료가 잘 정리돼 있어 이론과 실제를 잇는 데 큰 도움이 됩니다.