Quadruped Locomotion 사족 보행 학습 완벽 정리: 강화학습부터 Sim2Real까지

Quadruped Locomotion 사족 보행 학습은 최근 Physical AI 분야에서 가장 빠르게 발전하고 있는 연구 주제 가운데 하나예요. 보스턴 다이내믹스의 스팟(Spot), Unitree의 Go2, ANYbotics의 ANYmal 같은 4족 로봇들이 산업 현장과 연구실 양쪽에서 본격적으로 활용되면서, 그 안에 들어가는 보행 제어 알고리즘이 어떻게 동작하는지에 대한 관심이 폭발적으로 늘었어요. 이 글에서는 사족 보행 로봇이 균형을 잡고 다양한 지형을 안정적으로 걷거나 달릴 수 있도록 만드는 학습 기법과, 시뮬레이션에서 학습한 정책을 실제 로봇으로 옮기는 Sim2Real 기법, 그리고 최신 연구 트렌드까지 차근차근 정리해 드릴게요.

Quadruped Locomotion이 어려운 이유

4족 로봇의 보행 제어는 겉보기에는 단순해 보여도 실제로는 매우 까다로운 비선형 동역학 문제예요. 다리 4개가 동시에 또는 번갈아 지면에 닿으면서 발생하는 접촉력의 변화가 매 순간 달라지고, 거친 지형이나 미끄러운 바닥에서는 접촉 모델 자체가 불확실해지죠. 단순한 PID 제어나 사전 정의된 궤적 추종으로는 이런 변화에 대응하기가 사실상 불가능하다고 보면 돼요.

고차원 상태 공간과 접촉 동역학

Quadruped 로봇은 보통 12개 이상의 관절을 가지며, 각 관절의 위치와 속도, 그리고 몸체의 자세와 각속도까지 합치면 30차원이 넘는 고차원 상태 공간을 다루어야 해요. 여기에 발끝의 접촉 여부, 지면 반력 등 이산적이고 비연속적인 신호까지 결합되면 전통적인 모델 기반 제어로 풀기에는 계산량이 폭증해요. 그래서 강화학습(Reinforcement Learning)이나 모방학습(Imitation Learning) 같은 데이터 기반 방법론이 자연스럽게 주류로 자리 잡았어요.

안정성과 에너지 효율의 균형

좋은 보행 정책은 단순히 넘어지지 않는 것에 그치지 않아요. 배터리 한 번 충전으로 얼마나 오래 걸을 수 있는지, 같은 속도라도 얼마나 부드럽게 움직이는지, 갑작스러운 외부 힘이 가해졌을 때 얼마나 빠르게 회복하는지가 모두 평가 기준이 돼요. 그래서 보상 함수(reward function)를 설계할 때 안정성, 추적 정확도, 에너지 소비, 동작의 자연스러움을 동시에 고려한 다목적 최적화가 필요해요.

Quadruped Locomotion 사족 보행 학습 연구용 4족 로봇
Photo by Kinsey Wang on Unsplash

강화학습 기반 보행 정책 설계

현재 4족 보행 학습의 사실상 표준은 시뮬레이션 환경에서의 강화학습이에요. ETH 취리히의 ANYmal 연구팀이 2019년 Science Robotics에 발표한 논문을 시작으로, PPO(Proximal Policy Optimization) 같은 정책 그래디언트 알고리즘을 활용해 GPU에서 수천 개의 로봇을 병렬로 시뮬레이션하면서 정책을 학습시키는 방식이 널리 퍼졌어요.

관측값과 행동 공간 정의

일반적인 사족 보행 정책의 입력은 본체의 자세(롤·피치·요), 각속도, 각 관절의 각도와 각속도, 이전 행동, 그리고 사용자가 원하는 목표 속도(forward, lateral, yaw rate) 명령으로 구성돼요. 출력은 각 관절의 목표 각도이고, 이 값을 PD 제어기에 넣어 실제 토크로 변환하죠. 이렇게 정책을 관절 각도 출력으로 두면 학습 안정성도 높고 실제 로봇으로 옮겼을 때 발진(oscillation) 위험도 줄일 수 있어요.

보상 함수 설계의 핵심

보행 정책의 성패는 보상 함수에 달려 있다고 해도 과언이 아니에요. 일반적으로 다음과 같은 항목들이 가중합 형태로 결합돼요.

  • 속도 추적 보상: 사용자가 명령한 선속도와 각속도를 얼마나 잘 따라가는지
  • 자세 페널티: 본체가 너무 기울거나 흔들리지 않도록
  • 관절 토크 페널티: 에너지 소비를 줄이고 모터 부하 감소
  • 발 미끄러짐 페널티: 접촉 중인 발이 지면에서 미끄러지지 않도록
  • 공중 시간 보상: 자연스러운 보행 리듬 유도

각 항목의 가중치를 조정하는 작업이 곧 보행 스타일을 결정하는데, 너무 보수적으로 잡으면 로봇이 제자리걸음만 하고, 너무 공격적으로 잡으면 학습 초기에 자주 넘어져서 수렴이 느려지는 문제가 생겨요.

Sim-to-Real 전이의 도전과 해법

시뮬레이터 안에서 잘 걷는 정책이 실제 로봇으로 옮겨졌을 때 갑자기 휘청거리거나 넘어지는 현상은 4족 보행 연구의 오래된 난제예요. 이 격차를 메우는 핵심 기법이 도메인 무작위화(Domain Randomization)와 시스템 식별(System Identification), 그리고 외부 추정기 학습이에요.

도메인 무작위화

학습 단계에서 일부러 시뮬레이터의 물리 파라미터를 매 에피소드마다 무작위로 바꿔 주는 거예요. 마찰 계수, 모터의 최대 토크, 본체의 질량과 관성, 통신 지연, 센서 노이즈, 지면의 기울기 같은 변수를 폭넓게 무작위화하면 정책이 특정 시뮬레이션 조건에 과적합되지 않고 다양한 실제 상황에 강건한 행동을 배우게 돼요.

특권 정보 학습과 교사-학생 구조

2020년 이후 주목받은 기법이 바로 교사(Teacher)와 학생(Student) 정책으로 이루어진 두 단계 학습이에요. 먼저 시뮬레이터에서만 알 수 있는 특권 정보(privileged information), 예를 들어 정확한 지면 형상이나 마찰 계수까지 입력으로 받는 교사 정책을 강화학습으로 만들어요. 그다음 실제 로봇이 측정 가능한 신호만 입력으로 받는 학생 정책이 교사 행동을 모방하도록 지도학습으로 훈련하죠. 이 방식은 ETH의 거친 지형 보행 연구에서 큰 성공을 거둬, 실제 산악 지형에서도 안정적인 보행을 시연했어요.

액추에이터 모델링

Sim2Real 격차의 큰 부분은 모터의 비이상적 거동에서 와요. 이상적인 토크 명령과 실제 출력 사이의 비선형성, 마찰, 관성 등을 정확히 시뮬레이션하지 못하면 학습 정책이 실제 로봇에서 발진하기 쉬워요. ANYmal 팀은 실제 로봇에서 측정한 데이터로 신경망 액추에이터 모델을 학습시킨 뒤, 이 모델을 시뮬레이터에 내장하는 방식으로 격차를 크게 줄였어요.

대표 4족 로봇과 학습 사례

이론을 이해했다면 이번에는 실제로 어떤 로봇들이 어떤 학습 기법을 적용해 왔는지 살펴볼 차례예요. 각 사례는 동일한 강화학습 프레임워크를 쓰더라도 환경, 보상 설계, 하드웨어 구성에 따라 결과물이 크게 달라져요.

ANYmal과 거친 지형 보행

ETH 취리히 스핀오프인 ANYbotics가 만든 ANYmal은 강화학습 기반 보행의 대표적 성공 사례예요. 산업용 점검 로봇으로 실제 정유소, 발전소, 광산 등에서 운용되고 있고, 계단·그레이팅·진흙 같은 다양한 지형을 단일 정책 하나로 처리할 수 있다는 점이 강점이에요. 시각 정보 없이 고유 감각(proprioception)만으로도 계단을 오르내릴 수 있는 능력은 한때 큰 화제가 됐어요.

Unitree Go2와 오픈소스 생태계

Unitree의 Go2는 상대적으로 저렴한 가격(2,000~3,500달러대)으로 연구자 개인도 구입할 수 있어 4족 로봇 학습 연구의 진입 장벽을 크게 낮췄어요. NVIDIA Isaac Sim, Genesis, MuJoCo 같은 시뮬레이터에 Go2 모델이 기본 제공되면서, 학습 코드를 개인 PC의 GPU 한 장으로 돌려 실제 로봇으로 배포하는 풀파이프라인을 만들 수 있는 시대가 됐어요.

Boston Dynamics Spot의 하이브리드 접근

스팟은 오랫동안 모델 기반 제어를 정교하게 다듬어 온 대표 사례지만, 최근에는 학습 기반 정책을 부분적으로 결합하는 하이브리드 방향으로 가고 있다고 알려져 있어요. 동작 라이브러리(춤추기, 인사하기 등)를 모방학습으로 추가 확장하고, 거친 지형에서는 강화학습 기반 보조 정책을 활용하는 식이에요.

학습 인프라와 시뮬레이터 선택

실제로 4족 보행 학습을 시작하려면 어떤 도구를 써야 하는지가 큰 고민이에요. 2026년 현재 시점에서 가장 널리 쓰이는 조합 몇 가지를 정리해 볼게요.

주요 시뮬레이터 비교

시뮬레이터 특징 적합한 용도
NVIDIA Isaac Sim / Lab GPU 병렬화 강점, 수천 개 로봇 동시 학습 대규모 RL 학습
MuJoCo 접촉 동역학 정확, CPU 기반 알고리즘 연구
Genesis 최신 GPU 기반, 빠른 시뮬레이션 속도 차세대 RL 파이프라인
Gazebo ROS 통합 우수 전통적 제어·SLAM 검증

오픈소스 라이브러리 활용

처음부터 모든 코드를 작성하기보다 검증된 오픈소스를 출발점으로 삼는 게 효율적이에요. Legged Gym, RSL-RL, Isaac Lab 같은 프레임워크는 Quadruped 학습에 필요한 환경 구성, 무작위화, PPO 학습 루프를 모두 제공해서, 보상 함수와 환경만 본인 연구에 맞게 커스터마이즈하면 돼요. Hugging Face의 LeRobot 생태계도 점차 4족 로봇 환경을 확장하고 있어 모방학습 연구자에게 좋은 선택지예요.

최신 연구 트렌드와 향후 전망

2024년 이후 사족 보행 연구는 단순한 평지 보행을 넘어 시각·언어 통합, 비정형 환경 적응, 휴머노이드와의 기술 공유 같은 새로운 방향으로 확장되고 있어요.

시각 통합과 지형 인지

고유 감각만으로 거친 지형을 걸을 수도 있지만, 카메라나 LiDAR로부터 들어오는 시각 정보를 정책에 통합하면 미끄러짐을 미리 회피하거나, 계단 같은 구조물에서 더 자신 있게 발을 디딜 수 있어요. 최근에는 깊이 카메라의 높이맵 정보를 잠재 표현(latent representation)으로 압축한 뒤 정책 입력으로 넣는 방식이 주류로 자리 잡았어요.

거대 모델과의 결합

VLA(Vision-Language-Action) 모델이 휴머노이드 분야에서 화제가 됐지만, 4족 로봇에도 빠르게 확산되고 있어요. 사용자가 자연어로 “사다리 옆까지 걸어가서 사람을 기다려”라고 명령하면, 고수준 LLM 플래너가 경로와 동작을 생성하고, 저수준 보행 정책이 실제 로코모션을 담당하는 계층적 구조가 표준이 되고 있어요.

로봇 간 학습 전이

Open X-Embodiment 같은 대규모 로봇 데이터셋이 공개되면서, 한 종류의 4족 로봇에서 학습한 정책을 다른 형태의 로봇으로 전이하는 연구도 활발해요. 향후 5년 내에는 휴머노이드와 4족 로봇이 같은 파운데이션 모델을 공유하면서, 새로운 형태의 로봇이 나와도 미세조정만으로 빠르게 적응시킬 수 있는 시대가 올 것으로 기대돼요.

마무리: 사족 보행 학습을 시작하려는 분들에게

Quadruped Locomotion 사족 보행 학습은 강화학습, Sim2Real, 시뮬레이션 인프라, 하드웨어 통합이 한꺼번에 어우러지는 종합 분야예요. 처음 시작한다면 NVIDIA Isaac Lab 튜토리얼이나 Legged Gym 같은 잘 갖춰진 오픈소스 코드부터 그대로 돌려 보면서 학습 곡선을 직접 관찰해 보시길 권해요. 그다음 보상 함수를 조금씩 바꿔 보고, 도메인 무작위화 범위를 확장하면서 정책의 강건성이 어떻게 변하는지 실험해 보면 핵심 직관이 빠르게 잡혀요. 최종적으로 Unitree Go2 같은 실제 하드웨어로 옮기는 단계까지 가 본다면, 이론으로만 보던 Sim2Real의 어려움과 그 해법이 비로소 몸으로 와닿을 거예요. 자세한 알고리즘과 최신 논문은 Wikipedia의 Legged robot 항목ETH Legged Robotics 공식 페이지에서 추가로 살펴보실 수 있어요.