Action Chunking Transformer ACT 분석: 양손 조작을 가능케 한 모방학습 정책

로봇이 사람의 시연 데이터를 보고 정밀한 양손 조작을 수행하려면 어떤 정책 모델이 필요할까요? 최근 모방학습 분야에서 가장 주목받는 모델 중 하나가 바로 Action Chunking Transformer(이하 ACT)예요. ACT는 스탠퍼드 ALOHA 프로젝트의 핵심 정책 알고리즘으로, 저렴한 양손 텔레오퍼레이션 데이터만으로 신발끈 묶기, 건전지 끼우기, 사과 자르기 같은 복잡한 작업을 학습할 수 있게 해주었어요. 이번 글에서는 ACT가 등장한 배경부터 액션 청킹의 핵심 아이디어, 트랜스포머 구조의 디테일, 그리고 실제 학습 및 배포 시 주의해야 할 점까지 차근차근 살펴볼게요.

ACT가 등장한 배경과 해결하려는 문제

로봇 모방학습은 오랫동안 두 가지 큰 장벽에 막혀 있었어요. 첫째는 고비용 데이터 문제이고, 둘째는 분포 편차(distribution shift) 문제예요. 산업용 로봇으로 시연 데이터를 모으려면 수억 원 규모의 장비가 필요했고, 그렇게 모은 데이터로 학습한 정책도 새로운 환경에서 곧장 무너지는 일이 잦았어요. 2023년 스탠퍼드 연구팀은 약 2만 달러 수준의 저가 양손 로봇 플랫폼인 ALOHA를 공개하면서, 정책 모델로 ACT를 함께 제안했어요.

저비용 양손 텔레오퍼레이션의 등장

ALOHA는 두 대의 마스터 로봇 팔과 두 대의 팔로워 로봇 팔로 구성된 시스템이에요. 사람이 마스터 팔을 손으로 잡고 움직이면 팔로워가 같은 동작을 수행하면서 50Hz로 관절 각도와 카메라 영상을 기록해요. 한 작업당 50번 정도의 시연만 모으면 ACT가 충분히 학습할 만한 데이터가 만들어져요. 기존 연구들이 수천 번의 시연을 요구했던 것과 비교하면 정말 가벼운 셋업이에요.

기존 BC가 실패한 이유

전통적인 행동 복제(Behavior Cloning, BC)는 매 시점마다 다음 한 스텝의 액션만 예측해요. 그런데 사람이 시연한 데이터에는 미세한 떨림, 잠깐의 멈춤, 손의 흔들림 같은 노이즈가 들어가기 마련이에요. 모델이 매 스텝마다 독립적으로 액션을 출력하면 이런 노이즈가 누적되면서 동작이 점점 엉뚱한 방향으로 흘러가는 compounding error가 발생해요. ACT는 이 문제를 정면으로 해결하기 위해 등장했어요.

ACT 모방학습으로 작동하는 로봇 팔 클로즈업
Photo by Possessed Photography on Unsplash

액션 청킹(Action Chunking)이라는 핵심 아이디어

ACT라는 이름에서 가장 중요한 부분은 가운데 글자인 Chunking이에요. 한 번에 한 액션을 예측하지 말고, 미래의 일정 구간(예: 1초 분량의 50개 액션)을 한꺼번에 예측하자는 발상이에요. 이렇게 하면 정책이 짧은 시간 단위의 작은 움직임이 아니라 의미 있는 단위 동작을 학습하게 돼요.

왜 청크 단위가 효과적일까요?

사람이 컵을 잡는 동작을 떠올려볼게요. 우리는 매 밀리초 단위로 손가락 각도를 의식적으로 정하지 않아요. “팔을 뻗어 컵을 향해 다가가고, 손가락을 펼치고, 컵을 잡고, 들어올린다”는 단위 동작을 거의 자동으로 수행하죠. ACT는 이런 단위 동작을 액션 청크로 묶어서 학습해요. 그 결과 다음과 같은 이점이 생겨요.

  • 오류 누적 감소: 한 청크를 그대로 실행하면 중간 스텝에서 정책이 헷갈릴 기회가 줄어들어요.
  • 비-마코프 행동 학습: 사람의 시연에는 잠깐 멈췄다가 다시 움직이는 등의 비-마코프 패턴이 있는데, 청크 단위 예측이 이런 패턴을 자연스럽게 포착해요.
  • 관측 빈도 감소: 청크를 실행하는 동안 새 관측을 굳이 안 받아도 되니 추론 비용이 줄어들어요.

Temporal Ensembling으로 부드러운 동작 만들기

다만 청크를 그대로 실행하면 청크 경계에서 동작이 튀는 문제가 생겨요. ACT는 이를 해결하기 위해 Temporal Ensembling 기법을 도입했어요. 매 시점마다 새 청크를 예측하되, 현재 시점에 해당하는 액션을 과거 여러 청크가 예측한 값들과 가중 평균으로 합치는 방식이에요. 가중치는 지수적으로 감소시켜서, 가장 최근에 예측된 청크의 비중이 자연스럽게 커지도록 했어요. 덕분에 ACT 정책은 매끄럽고 안정적인 궤적을 생성해요.

ACT의 모델 구조: CVAE + Transformer

ACT는 단순한 트랜스포머가 아니라 조건부 변분 오토인코더(Conditional VAE, CVAE) 위에 트랜스포머를 얹은 구조예요. 이는 시연 데이터에 존재하는 다중 모달(multi-modal) 행동 분포를 잘 잡아내기 위한 설계예요.

인코더와 디코더의 역할

학습 시에는 인코더가 시연 액션 시퀀스를 받아 잠재 변수 z의 분포를 추정해요. 디코더는 이미지·관절 상태·잠재 변수 z를 입력으로 받아 액션 청크를 복원하도록 학습해요. 추론 시에는 z를 표준 정규분포에서 샘플링하거나 0으로 고정하면 돼요. 0으로 고정하면 가장 확신 있는 모드의 행동이 나오기 때문에, 실제 배포에서는 보통 z = 0을 사용해요.

트랜스포머 디코더의 입력

ACT 디코더는 다음과 같은 입력을 받아 미래 액션을 예측해요.

  1. 4대 카메라(상단, 좌측 손목, 우측 손목, 전방)에서 얻은 이미지를 ResNet18로 인코딩한 시각 토큰
  2. 현재 양손 14자유도(7+7) 관절 상태를 임베딩한 상태 토큰
  3. CVAE 인코더에서 나온 잠재 변수 z

이 입력 시퀀스에 위치 인코딩을 더하고, 디코더는 학습 가능한 쿼리 슬롯을 사용해 청크 길이만큼의 액션을 한 번에 출력해요. 디코더 자체는 일반적인 트랜스포머 인코더-디코더 구조와 거의 같지만, 출력이 텍스트 토큰이 아니라 연속적인 관절 각도라는 점이 핵심 차이예요.

학습 절차와 실전 팁

ACT를 직접 학습해본 사람들이 공통적으로 강조하는 포인트가 몇 가지 있어요. 단순히 코드를 돌리는 것을 넘어서, 안정적인 정책을 얻으려면 데이터 수집과 하이퍼파라미터 설정에 꽤 신경을 써야 해요.

데이터 수집 가이드라인

작업당 50회 정도의 시연이 적절하지만, 시연의 품질이 양보다 중요해요. 너무 빠르거나 손을 흔들면서 시연하면 모델이 그 패턴까지 흉내내려고 해요. 일관된 속도로, 사람의 의도가 명확하게 드러나도록 시연하는 것이 핵심이에요. 또한 작업 시작 시 손의 초기 위치, 조명 조건, 물체 위치를 다양화해야 정책이 일반화 능력을 갖춰요.

하이퍼파라미터의 영향

가장 중요한 두 가지는 청크 길이(chunk size)KL 가중치예요. 청크 길이가 너무 짧으면 청킹의 장점이 사라지고, 너무 길면 환경 변화에 대응하지 못해요. ALOHA 논문에서는 100스텝(2초)을 기본값으로 사용했어요. KL 가중치는 CVAE의 잠재 변수가 의미 있는 정보를 담도록 조절하는데, 너무 크면 z가 무용해지고 너무 작으면 모드 붕괴가 일어나요. 보통 10 전후의 값을 사용해요.

학습 시간과 자원

ACT는 비교적 가벼운 모델이라 RTX 3090 한 대로도 5만 스텝(약 5시간)이면 수렴해요. 데이터셋 크기에 따라 다르지만 단일 GPU로도 충분히 다룰 수 있다는 점이 큰 매력이에요. 실시간 추론은 14자유도 출력 기준으로 100Hz 이상 가능해요.

ACT의 한계와 후속 연구

ACT가 강력하긴 하지만 만능은 아니에요. 양손 조작에서 큰 인상을 남겼음에도 몇 가지 분명한 한계가 보고되고 있어요.

일반화 능력의 제약

ACT는 시연된 작업·환경에 특화되기 쉬워요. 학습 시 본 적 없는 새 물체나 새 배치에는 잘 적응하지 못해요. 이를 보완하기 위해 로봇 학습 분야에서는 대규모 다중 작업 데이터셋과 비전-언어-액션(VLA) 모델을 결합하는 방향이 활발히 연구되고 있어요. 예컨대 RT-2, OpenVLA, Pi-Zero 등은 ACT 류의 정책을 사전학습된 거대 모델과 묶어서 일반화 성능을 크게 끌어올렸어요.

장기 작업과 추론 한계

ACT는 청크 단위 예측에 강하지만, 청크보다 훨씬 긴 작업—예를 들어 “주방을 정리하기”—에는 별도의 상위 플래너가 필요해요. 최근에는 LLM이 상위 플래너 역할을 하고 ACT가 하위 정책을 담당하는 계층적 구조가 자주 사용되고 있어요. SayCan, Code as Policies 같은 시스템이 이런 흐름을 잘 보여주는 사례예요.

안전성과 윤리

로봇이 점점 더 정교한 작업을 학습하면서 안전 검증과 윤리적 고민도 중요해지고 있어요. ACT처럼 시연 데이터로부터 학습한 정책은 시연자의 습관과 편향까지 흡수할 가능성이 있어요. 의료나 산업 현장에 배포하기 전에는 다양한 상황에서 충분한 시뮬레이션과 실험을 거치는 것이 필수예요. IEEE 같은 학회에서는 이런 안전 가이드라인을 정기적으로 업데이트하고 있어요.

마무리: ACT가 던지는 메시지

ACT는 단순한 알고리즘이라기보다 “잘 설계된 작은 모델 + 좋은 데이터 + 똑똑한 트릭“이 거대한 모델 못지않은 성능을 낼 수 있다는 강력한 사례예요. 액션 청킹과 Temporal Ensembling이라는 비교적 단순한 아이디어로, 복잡한 양손 조작 작업을 안정적으로 수행해 보였죠. 피지컬 AI에 관심이 있다면 ACT 코드를 직접 돌려보고, 청크 길이를 바꿔보거나 KL 가중치를 조절해보면서 정책 모델의 거동을 체감해보는 걸 추천해요. 결국 로봇 학습의 핵심은 모델 크기가 아니라 문제를 어떻게 정의하느냐에 있다는 사실을 ACT는 잘 보여주고 있어요.