Bimanual Manipulation 양손 조작 학습: Physical AI의 핵심 기술 한눈에 보기

두 손으로 빨래를 개거나, 한 손으로 컵을 잡고 다른 손으로 커피를 따르는 동작은 사람에게는 너무 자연스러운 일이에요. 하지만 로봇에게는 여전히 가장 어려운 도전 과제 중 하나로 남아 있어요. Bimanual Manipulation, 즉 양손 조작 학습은 Physical AI 시대의 핵심 기술로 떠오르고 있는데요. 단순히 팔 두 개를 동시에 움직이는 문제가 아니라, 두 팔의 협응과 접촉 동역학, 그리고 시각·촉각 정보 통합까지 모두 풀어야 하는 복합 문제예요. 이번 글에서는 양손 조작 학습이 왜 중요한지, 어떤 알고리즘과 데이터셋이 활용되는지, 그리고 최근의 연구 동향까지 정리해 볼게요.

Bimanual Manipulation이 Physical AI의 핵심인 이유

현실 세계의 작업 대부분은 한 손만으로는 완성되지 않아요. 음식을 조리하거나 가구를 조립하는 일, 옷을 정리하는 일까지 대부분 두 손을 협응시켜야 합니다. Physical AI 연구자들이 단일 팔 조작에서 양손 조작으로 무게 중심을 옮기고 있는 이유가 바로 여기에 있어요.

단일 팔로는 풀 수 없는 작업의 영역

천이나 끈, 케이블처럼 형태가 유연한 물체를 다루는 deformable object manipulation은 단일 팔로는 거의 불가능해요. 한 손은 물체를 고정하고 다른 손이 변형을 만들어야 하기 때문이에요. 또 무거운 박스를 양쪽에서 들어 옮기는 dual-arm carrying이나, 병뚜껑을 여는 것처럼 한 손이 회전 토크를 견디는 동안 다른 손이 비트는 작업도 마찬가지예요. 이런 과제들을 통틀어 bimanual-essential tasks라고 부르는데, Physical AI가 가정과 공장으로 진출하기 위한 필수 관문이라고 평가받고 있어요.

인간 시연 데이터의 풍부함

양손 조작이 주목받는 또 다른 이유는 학습 데이터를 모으기 좋다는 점이에요. 사람은 거의 모든 일상 활동에서 두 손을 함께 쓰기 때문에, 비디오나 모션 캡처 데이터를 모으면 자연스럽게 양손 시연이 누적돼요. 최근 등장한 Aloha, Mobile Aloha, GR00T-Teleop 같은 양손 텔레오퍼레이션 플랫폼은 이 데이터의 양과 질을 극적으로 끌어올리고 있어요.

두 개의 로봇 손이 협응하는 모습 - 양손 조작 학습 이미지
Photo by Possessed Photography on Unsplash

양손 조작 학습의 기술적 난제

두 팔이 협응해서 작업을 마치려면 단일 팔 제어보다 차원 수가 두 배 이상으로 늘어나요. 7자유도 팔 두 개면 14차원 관절 공간을 다뤄야 하고, 여기에 그리퍼 각도와 베이스 위치까지 더하면 20차원이 훌쩍 넘죠. 이 고차원 문제는 학습과 제어 모두에 큰 부담을 줘요.

접촉이 일어나는 양손 협응의 복잡도

두 팔이 같은 물체를 동시에 잡으면 닫힌 운동학(closed-chain kinematics) 문제가 생겨요. 한쪽 팔이 살짝만 움직여도 다른 쪽 팔의 손목과 손가락에 미는 힘이 즉시 전달되기 때문에, 일반적인 역기구학 풀이만으로는 안정적인 동작을 만들기 어려워요. 임피던스 제어나 force-torque 센서 기반 어드미턴스 제어가 함께 쓰이는 이유예요.

시각-촉각-자기수용 감각의 멀티모달 통합

양손 조작에서는 카메라만으로는 부족해요. 특히 한 손에 가려진 다른 손의 작업 영역, 즉 self-occlusion을 해결하려면 손목 카메라, 촉각 센서, 관절 토크 센서까지 통합해야 합니다. Diffusion Policy나 RT-2 같은 비전-언어-행동(VLA) 모델이 이런 멀티모달 입력을 동시에 처리하도록 확장되는 추세예요.

희소 보상과 장기 호라이즌 문제

두 손으로 셔츠를 개는 일처럼 수십 초가 걸리는 long-horizon task는 강화학습에서 보상이 거의 발생하지 않는 sparse reward 문제를 일으켜요. 그래서 최근에는 모방학습(Imitation Learning)과 행동 클로닝(Behavior Cloning)을 우선 적용한 뒤, 잔차 강화학습(residual RL)으로 미세조정을 더하는 하이브리드 접근이 표준처럼 자리잡고 있어요.

대표 알고리즘과 정책 아키텍처

양손 조작에서 자주 인용되는 알고리즘들을 정리하면, 이 분야가 얼마나 빠르게 변하고 있는지 한눈에 보여요. 2023년 ACT(Action Chunking with Transformers)부터 2025년의 대규모 VLA 모델까지 패러다임이 매년 갱신되는 느낌이에요.

ACT와 Aloha 시리즈

스탠퍼드 연구진이 공개한 ACT는 트랜스포머로 행동을 청크 단위로 예측하는 방식인데, 양손 텔레오퍼레이션 하드웨어인 Aloha와 짝을 이뤄서 큰 인기를 얻었어요. 약 50회의 시연만으로도 양손으로 컵을 잡거나 봉지를 여는 작업을 학습할 수 있어 모방학습의 데이터 효율을 크게 끌어올렸어요.

Diffusion Policy

Diffusion Policy는 행동 시퀀스를 노이즈로부터 점진적으로 복원하는 방식의 정책 모델이에요. 양손처럼 고차원 연속 행동 공간에서도 안정적으로 작동하고, 멀티모달 행동 분포를 표현할 수 있다는 장점이 있어 양손 조작 벤치마크 대부분에서 강력한 성능을 보여요.

VLA 기반 일반화 모델

RT-2, OpenVLA, Pi0, GR00T 같은 비전-언어-행동 모델은 인터넷 규모의 비전-언어 사전학습을 활용해 새로운 양손 작업에도 zero-shot에 가깝게 적응하는 것을 목표로 해요. 양손 시연 데이터셋이 늘어나면서 이런 generalist 모델이 빠르게 진화하고 있어요.

데이터셋과 시뮬레이션 환경

알고리즘만큼 중요한 것이 학습 데이터와 시뮬레이션이에요. 양손 조작은 시연 비용이 매우 비싸기 때문에, 공개 데이터셋과 고품질 시뮬레이터 확보가 연구 속도를 좌우해요.

공개 데이터셋

  • Open X-Embodiment: 22개 로봇 플랫폼에서 모인 100만 건 이상의 에피소드 중 다수가 양손 데이터예요.
  • Aloha/Mobile Aloha Dataset: 양손 텔레오퍼레이션으로 모은 가정용 작업 시연이 풍부하게 포함돼 있어요.
  • RoboAgent MT-ACT: 멀티태스크 양손 조작 학습용 데이터셋으로 38개 작업이 수록돼 있어요.

시뮬레이션 플랫폼

NVIDIA Isaac Lab, RoboCasa, ManiSkill3 같은 GPU 가속 시뮬레이터들은 양손 환경을 기본 지원하고 있어요. 특히 Isaac Lab은 양쪽 팔과 부드러운 물체, 다중 객체를 동시에 시뮬레이션할 수 있어서 sim-to-real 연구에서 표준 도구로 자리잡았어요. 시뮬레이션과 실제 환경의 격차를 줄이기 위한 domain randomization, 그리고 양손 마찰·접촉을 더 사실적으로 모델링하는 differentiable simulation 연구도 활발해요.

실제 응용과 산업적 의미

양손 조작이 무르익으면 어떤 변화가 따라올까요. 단순히 로봇 팔 두 개를 쓰는 데모를 넘어, 실제 산업과 가정의 작동 방식 자체가 바뀔 가능성이 있어요.

가정용 휴머노이드의 등장

Figure, 1X, Apptronik, 유니트리 같은 휴머노이드 스타트업과 Tesla Optimus 프로젝트의 공통된 시연 시나리오가 모두 양손 작업이에요. 빨래 개기, 식기 세척, 옷 정리 같은 일은 양손 조작 없이는 불가능하기 때문에, bimanual policy의 성숙도가 곧 가정용 휴머노이드의 상용화 시점을 결정할 거예요.

제조와 물류의 자동화 확장

전통적인 산업용 로봇은 정밀한 단일 팔 작업에 강했지만, 케이블 하네스 조립이나 박스 포장처럼 두 손이 필요한 공정에서는 인간 작업자에 크게 의존해 왔어요. 양손 조작 학습이 보편화되면 자동차, 가전, 물류 센터에서 사람과 같은 동작 패턴을 가진 로봇 인력이 추가되는 셈이에요.

수술과 의료 분야

인튜이티브 서지컬의 다빈치 시스템처럼 양손 텔레오퍼레이션 기반 의료 로봇은 이미 임상에서 쓰이고 있어요. 여기에 학습 기반 양손 정책이 결합되면 봉합이나 조직 견인 같은 일부 단계를 보조 자동화하는 길이 열릴 수 있어요. 자세한 의료 로봇 분야 전반에 대한 개괄은 Wikipedia의 Robot-assisted surgery 항목에서 더 살펴볼 수 있어요.

앞으로의 연구 방향과 시사점

양손 조작 학습은 Physical AI 로드맵의 한가운데에 있어요. 앞으로 풀어야 할 과제는 크게 세 가지예요. 첫째, 양손 협응을 위한 저비용·고품질 시연 데이터를 어떻게 더 빠르게 모을 것인가. 둘째, 시뮬레이션과 실제 환경의 격차를 좁힐 접촉 모델링과 sim-to-real 기법. 셋째, 새로운 작업에도 적응하는 generalist bimanual policy의 일반화 능력이에요. 이 세 축이 함께 발전하면 사람과 닮은 손놀림을 가진 로봇이 우리 일상으로 들어오는 시점이 머지않다는 점, Physical AI에 관심 있는 분이라면 양손 조작 분야의 흐름을 꾸준히 지켜볼 가치가 충분해요.