이족 보행 로봇 밸런싱의 핵심 원리: ZMP부터 강화학습까지

두 발로 걷는 로봇을 처음 보면 “저렇게 좁은 접지 면적으로 어떻게 안 넘어지지?” 하는 궁금증이 먼저 떠올라요. 이족 보행 로봇의 밸런싱은 단순히 발바닥 크기에 의존하는 문제가 아니라, 중심 이동·관절 토크·예측 제어가 실시간으로 맞물려 돌아가는 복잡한 동역학 문제예요. 이번 글에서는 이족 보행 로봇 밸런싱의 핵심 원리를 중심으로, 현대 휴머노이드가 왜 더 이상 뒤뚱거리지 않는지 그 이면의 기술을 하나씩 풀어볼게요.

이족 보행 로봇이 서 있기 위한 기본 역학

이족 보행 로봇 밸런싱의 핵심 원리를 이해하려면 먼저 “정적 안정”과 “동적 안정”의 차이를 짚어야 해요. 네 발 로봇이나 바퀴 로봇은 다리 또는 바퀴가 만드는 지지 다각형(Support Polygon) 안에 무게중심(CoM, Center of Mass)이 들어오기만 하면 그 자리에 가만히 서 있을 수 있어요. 반면 이족 로봇은 한쪽 발을 떼는 순간 지지면이 한 발바닥으로 줄어들기 때문에, 정적 안정 조건만으로는 절대 걷지 못해요.

CoM과 ZMP 개념

이때 등장하는 것이 ZMP(Zero Moment Point)예요. ZMP는 바닥에 작용하는 반력이 합쳐져 회전 모멘트가 0이 되는 한 점으로, 이 점이 발바닥 내부(지지 다각형 안)에 머무는 한 로봇은 넘어지지 않아요. 혼다의 아시모(ASIMO)부터 최근의 아틀라스(Atlas)까지, 오랜 기간 ZMP 기반 제어가 주류였던 이유예요. 걸음을 설계할 때 공학자들은 “CoM 궤적을 어떻게 그려야 ZMP가 발바닥 바깥으로 빠지지 않을까”를 수학적으로 계획해요.

지지 다각형과 스텝 타이밍

양발이 모두 바닥에 닿은 상태(Double Support Phase)에서는 지지 다각형이 넓고, 한 발이 떨어진 상태(Single Support Phase)에서는 다각형이 한쪽 발바닥으로 축소돼요. 따라서 걸음걸이 주기(gait cycle) 동안 ZMP는 끊임없이 한 발에서 다른 발로 “이사”를 해야 해요. 이 이사 타이밍이 조금이라도 어긋나면 로봇은 앞이나 옆으로 쓰러지고, 이것이 초기 휴머노이드가 슬로우모션으로 걸었던 이유이기도 해요.

이족 보행 로봇이 실내에서 균형을 잡으며 서 있는 모습
Photo by Enchanted Tools on Unsplash

LIPM과 예측 제어: 넘어지기 전에 생각하기

실제 휴머노이드의 하드웨어는 수십 개의 관절로 이루어진 복잡한 비선형 시스템이에요. 이를 실시간으로 계산하려면 단순화된 수학 모델이 필요한데, 가장 널리 쓰이는 것이 LIPM(Linear Inverted Pendulum Model)이에요. 거꾸로 선 진자 하나에 로봇의 질량이 집중돼 있다고 가정하고, 발바닥은 그 진자의 힌지로 보는 모델이죠.

LIPM이 강력한 이유

LIPM은 로봇을 딱 하나의 진자 방정식으로 표현할 수 있어 계산 비용이 아주 낮아요. 덕분에 제어 루프가 1kHz 이상의 고속으로 돌아도 CPU 부담이 크지 않고, CoM 높이가 일정하다는 가정을 걸면 방정식이 선형으로 깔끔하게 정리돼요. 이 모델을 기반으로 한 발자국 이후의 CoM 위치를 예측하고, 원하는 ZMP를 만들어내는 발 착지점(foot placement)을 역산할 수 있어요.

MPC(모델 예측 제어)의 역할

LIPM이 기초 재료라면, MPC(Model Predictive Control)는 요리법이에요. MPC는 현재 상태에서 앞으로 1~2초 동안의 움직임을 수백 개의 타임스텝으로 쪼개 시뮬레이션하고, 비용 함수를 최소화하는 제어 입력을 매 주기마다 다시 계산해요. “오른발을 여기 놓으면 3스텝 뒤에 넘어진다”는 사실을 미리 알 수 있기 때문에, 넘어지기 전에 궤도를 수정할 수 있죠. 최근 보스턴다이내믹스의 아틀라스가 백덤블링이나 파쿠르를 해내는 배경에는 매우 정교하게 튜닝된 실시간 MPC가 있어요.

센서 융합과 상태 추정: 로봇이 자기 자세를 아는 법

아무리 제어 알고리즘이 훌륭해도, 로봇이 자기 상태를 모르면 아무 소용이 없어요. 이족 보행 로봇 밸런싱의 핵심 원리에서 빠질 수 없는 것이 상태 추정(state estimation)이에요. 사람이 눈을 감고도 균형을 잡을 수 있는 것은 내이(전정기관)와 근육의 감각이 동시에 일하기 때문이고, 로봇도 마찬가지로 여러 센서를 융합해요.

IMU, 엔코더, F/T 센서의 협업

허리나 가슴에 장착된 IMU(Inertial Measurement Unit)는 기울기와 각속도를 알려주고, 각 관절의 엔코더는 정확한 각도를 측정해요. 발목에 들어간 6축 힘/토크 센서(F/T)는 바닥 반력을 읽어서 실제 ZMP가 어디에 찍히고 있는지를 실시간으로 알려줘요. 칼만 필터나 EKF(Extended Kalman Filter)가 이 세 종류의 데이터를 섞어 단일 상태 벡터로 변환해요.

지연과 노이즈를 이기는 기술

센서마다 샘플링 주파수와 지연(latency)이 달라서, 단순히 더하는 방식으로는 제대로 된 자세 추정이 어려워요. 그래서 실제 시스템은 예측-보정(predict-update) 구조의 필터를 써서 센서 지연을 보상하고, 드리프트가 누적되는 IMU 적분 오차를 다른 센서로 상쇄해요. 이 과정이 빠르고 정확해야만 MPC가 믿고 쓸 수 있는 입력이 만들어져요.

강화학습 시대: 제어 규칙에서 정책 학습으로

전통적인 ZMP+MPC 방식은 수학적 보장은 강하지만, 예측하지 못한 외란이나 미끄러운 바닥 같은 상황에 취약할 수 있어요. 그래서 최근 2~3년 사이에 NVIDIA Isaac Lab, MuJoCo, Google DeepMind 등 주요 기관은 강화학습(RL) 기반 밸런싱 정책으로 방향을 틀고 있어요.

시뮬레이션 병렬화와 도메인 랜덤화

수천 대의 가상 로봇을 GPU 안에서 동시에 학습시키는 방식으로, 단 몇 시간 만에 실제 로봇 수년치 분량의 걸음 데이터를 만들어낼 수 있어요. 여기에 도메인 랜덤화(domain randomization)를 얹어서, 바닥 마찰·모터 토크·중량·센서 노이즈 같은 변수를 학습 중에 무작위로 흔들어요. 이렇게 훈련된 정책은 실제 세상에서도 한 번도 본 적 없는 표면 위에서 꽤 강건하게 동작해요.

Sim-to-Real 간극

문제는 시뮬레이션과 실제 하드웨어 사이의 미세한 차이, 이른바 Sim-to-Real Gap이에요. 모터의 히스테리시스, 케이블 늘어짐, 센서 지연 같은 요소는 수식으로 완벽히 모사하기 어렵고, 실제 로봇에서 잘못 동작하면 하드웨어가 파손될 위험도 커요. 그래서 최근에는 RL 정책과 MPC를 층층이 쌓아 “계획은 MPC가, 외란 대응은 RL이” 담당하는 하이브리드 구조가 각광받고 있어요. 더 자세한 연구 흐름은 Wikipedia의 Humanoid robot 문서에서도 개괄적으로 살펴볼 수 있어요.

외란 대응: 밀쳐도 넘어지지 않는 비결

시연 영상에서 연구자가 긴 막대로 로봇을 힘껏 밀어도 몇 걸음 비틀거리다가 다시 자세를 잡는 장면을 본 적 있을 거예요. 이 “푸시 리커버리(push recovery)”는 이족 보행 로봇 밸런싱의 핵심 원리를 가장 극적으로 보여주는 기술이에요.

세 가지 밸런싱 전략

인간 생체역학 연구에서 비롯된 세 가지 전략이 로봇에도 그대로 적용돼요. 첫째 발목 전략(Ankle Strategy)은 작은 외란에 발목 관절만으로 대응해요. 둘째 엉덩이 전략(Hip Strategy)은 더 큰 외란이 왔을 때 상체를 빠르게 앞뒤로 흔들어 운동량을 상쇄해요. 셋째 스텝 전략(Stepping Strategy)은 넘어지기 직전에 한 발을 새로 내딛어 지지 다각형 자체를 옮기는 방법이에요.

Capture Point 이론

Capture Point(캡처 포인트)는 “지금 이 자리에 발을 내디디면 완전히 멈출 수 있는 지점”을 의미해요. 외란이 가해졌을 때 로봇은 실시간으로 자기 캡처 포인트를 계산하고, 그 위치에 최대한 가깝게 다음 발을 내딛어요. 이 개념 덕분에 로봇은 단순히 “넘어지지 않기”를 넘어서, 넘어짐을 이용해 걷는 수준까지 올라왔어요.

밸런싱 기술이 열어갈 Physical AI 시대

이족 보행 로봇 밸런싱의 핵심 원리는 이제 단순한 보행 기술을 넘어, Physical AI 시대의 토대 기술로 자리잡고 있어요. 휴머노이드가 공장·물류·가정으로 들어오려면 안정된 이족 보행은 필수 조건이고, 그 위에 조작(manipulation)과 인지(perception)가 얹혀야 해요. ZMP·LIPM·MPC 같은 고전 제어, IMU·F/T 기반 상태 추정, 대규모 시뮬레이션으로 학습한 RL 정책, 그리고 캡처 포인트 기반 외란 대응까지 — 이 모든 층이 쌓일 때 비로소 로봇은 사람처럼 자연스럽게 걷고 설 수 있어요. 앞으로 몇 년 사이, 우리는 공장뿐 아니라 일상 공간에서 이족 보행 로봇을 만나게 될 텐데, 그 매 걸음 뒤에는 오늘 살펴본 밸런싱 원리가 숨 쉬고 있다는 사실을 기억하면 기술이 조금 더 가깝게 느껴질 거예요.