로봇에게 새로운 동작을 가르치는 일은 생각보다 훨씬 까다로워요. 사람이 손으로 보여준 시연 데이터를 그대로 따라 하게 하려고 해도, 조금만 상황이 달라지면 로봇은 엉뚱한 곳으로 팔을 뻗거나 물건을 놓쳐버리거든요. 그런데 요즘 Diffusion Policy 로봇 동작 생성 원리가 이 문제를 상당히 우아하게 풀어내면서 학계와 산업계에서 큰 주목을 받고 있어요. 이미지 생성 AI에서 친숙해진 확산 모델을 로봇의 행동 시퀀스 생성에 그대로 가져와 썼더니, 정밀도와 안정성이 동시에 올라가더라는 이야기예요. 오늘은 이 기법이 왜 중요한지, 내부 구조는 어떻게 생겼는지, 그리고 실제 현장에서는 어떤 식으로 활용되는지 차근차근 풀어볼게요.
Diffusion Policy가 등장한 배경
로봇 학습 분야에서 모방 학습(Imitation Learning)은 오랜 역사를 가진 접근법이에요. 사람이 조이스틱이나 텔레오퍼레이션 장비로 로봇을 움직여 시연 데이터를 쌓으면, 그 데이터를 바탕으로 정책 신경망을 학습시켜 동일한 작업을 반복하게 하죠. 문제는 시연 데이터 자체가 대단히 멀티모달하다는 점이에요. 같은 장면에서도 사람마다 팔을 오른쪽으로 돌려 물건을 잡기도 하고 왼쪽으로 돌리기도 하잖아요.
기존 방식의 한계
기존의 회귀 기반 행동 예측은 이런 멀티모달 분포를 평균적으로 학습하는 경향이 있어요. 왼쪽으로 가는 시연과 오른쪽으로 가는 시연을 함께 학습하면, 결국 로봇은 어중간한 가운데 경로로 움직여 탁자 모서리에 팔을 부딪치는 식이에요. Gaussian Mixture Model이나 Energy-Based Model을 써서 이 문제를 완화하려는 시도가 있었지만, 학습 안정성과 표현력 사이의 균형이 늘 아쉬웠어요.
확산 모델이 가져온 돌파구
이때 컬럼비아 대학교와 MIT, 도요타 연구소가 함께 발표한 Diffusion Policy(2023)가 판을 바꿨어요. 이미지 생성에서 위력을 입증한 Denoising Diffusion Probabilistic Model(DDPM)을 행동 시퀀스 생성에 그대로 붙였더니, 멀티모달 분포도 자연스럽게 표현되고 고차원 행동 공간에서도 안정적으로 수렴하더라는 거예요. 실제 벤치마크에서 평균 성공률이 기존 최고 수준 대비 46.9% 향상됐다는 보고가 나오면서 단숨에 표준 레퍼런스로 자리 잡았어요.

Diffusion Policy의 핵심 작동 원리
Diffusion Policy의 본질은 “깨끗한 행동을 노이즈로부터 점진적으로 복원한다”는 아이디어예요. 학습 단계에서는 시연 데이터에 무작위 노이즈를 더해 망가뜨린 뒤, 신경망이 그 노이즈를 예측하고 제거하도록 훈련해요. 추론 단계에서는 완전 무작위 노이즈로 시작해서 수십 번의 디노이징 스텝을 거치면 원하는 조건(현재 관측)에 맞는 행동 시퀀스가 서서히 모습을 드러내요.
조건부 디노이징 네트워크
Diffusion Policy는 단순히 확산 모델을 갖다 쓴 것이 아니라 로봇 제어에 맞춘 몇 가지 설계를 얹었어요. 첫째, 시각 관측(카메라 이미지)을 ResNet 기반 인코더로 압축해 조건 벡터로 넣어요. 둘째, 디노이징 네트워크는 1D Convolutional U-Net 또는 Transformer 구조를 써서 시간 축 상의 행동 시퀀스를 처리해요. 셋째, 학습 노이즈 스케줄은 DDPM의 기본 코사인 스케줄을 따르되, 추론 시에는 DDIM으로 10~16스텝 정도만 써서 실시간성을 확보해요.
Action Chunking과 Receding Horizon
핵심 트릭 중 하나가 Action Chunking이에요. 한 번의 추론으로 앞으로의 8~16스텝 행동을 한꺼번에 생성하고, 그중 앞부분 일부만 실제로 실행한 뒤 다시 관측해서 재생성해요. 이렇게 하면 단기 정책이 갖는 ‘지그재그’ 현상을 줄이면서도, 환경 변화에 대응할 수 있는 반응성도 유지돼요. 이 Receding Horizon Control 개념은 전통 제어 이론의 MPC와 닮았지만, 모델이 학습된 분포 안에서 다양한 대안 경로를 샘플링한다는 점이 달라요.
구현 디테일과 학습 파이프라인
이론을 넘어 실제 구현으로 내려가면 몇 가지 실무적인 포인트가 중요해져요. 오픈소스 LeRobot이나 Diffusion Policy 공식 레포를 열어보면 공통적으로 다음과 같은 흐름을 확인할 수 있어요.
데이터 수집과 전처리
- 텔레오퍼레이션 시연: GELLO, ALOHA, SpaceMouse 같은 장비로 수백~수천 건의 시연을 모아요. 각 시연은 1Hz가 아니라 보통 10~30Hz로 기록돼요.
- 정규화: 관절 위치와 엔드이펙터 좌표는 -1 ~ 1 범위로 스케일링하고, 시연 간 분포가 치우치지 않도록 Min-Max 또는 Gaussian 정규화를 적용해요.
- 시간 동기화: 카메라 프레임과 로봇 상태 타임스탬프를 정렬하지 않으면 학습이 망가져요. 대부분 프레임 인덱스 기반으로 리샘플링해요.
네트워크 구조 선택
CNN-UNet 변형은 파라미터가 가벼워 저사양 GPU에서도 돌릴 수 있지만, 긴 시퀀스와 언어 조건 같은 복잡한 입력에는 Transformer 기반이 더 유리해요. 최근 π0, RDT-1B처럼 대규모로 확장된 모델들은 Transformer 디노이저에 Flow Matching까지 결합해 학습 안정성과 샘플링 속도를 동시에 잡는 흐름이 주류로 자리 잡았어요.
학습 하이퍼파라미터
- 옵티마이저는 AdamW, 학습률은 1e-4에서 시작해 Cosine Warmup을 적용해요.
- 배치 크기는 GPU 메모리에 따라 64~256, 에폭은 2,000~5,000 정도가 일반적이에요.
- EMA(Exponential Moving Average) 가중치를 유지해 추론 시에는 EMA 버전을 사용하면 안정성이 뚜렷이 올라가요.
- 디노이징 스텝 수는 학습 시 100, 추론 시 DDIM 16스텝 정도로 분리 운영하는 편이 실전적이에요.
Diffusion Policy가 잘하는 작업과 한계
모든 기법이 그렇듯 Diffusion Policy도 만능은 아니에요. 어떤 작업에서 강점을 발휘하고 어떤 상황에선 약점이 드러나는지 파악하는 것이 현장 적용에서 중요해요.
강점이 드러나는 작업
접촉이 많고 정밀한 조작이 필요한 태스크에서 특히 빛나요. 티셔츠 접기, 컵에 커피 따르기, 계란 옮기기, 프라이팬 뒤집기 같은 태스크가 대표적이에요. 시연 데이터에 내재된 미세한 손목 회전이나 속도 조절까지 확산 모델이 자연스럽게 흡수하거든요. 또한 사람이 여러 가지 전략을 섞어 시연한 경우에도 분포를 붕괴시키지 않고 학습할 수 있다는 점이 가장 큰 장점이에요.
여전히 남는 숙제
반면 추론에 수십 ms가 걸리기 때문에 고속 반응이 필요한 드론이나 다이내믹 보행에는 부담이 있어요. Consistency Model, Flow Matching, Shortcut Model 같은 후속 연구가 이를 완화하고는 있지만, 완전한 1스텝 샘플링까지 성능을 유지하는 일은 아직 활발한 연구 주제예요. 또한 카메라 시점이 학습 분포에서 크게 벗어나면 성능이 급격히 떨어지는 분포 외 일반화 문제가 남아 있어서, 대규모 데이터와 도메인 랜덤화가 병행돼야 해요.
최신 확장 연구
2024~2025년 사이에 3D Diffusion Policy가 포인트 클라우드 입력을 받아 공간 이해를 강화했고, Diffusion Transformer Policy는 대규모 사전학습과 결합돼 범용성을 끌어올렸어요. 또 Hugging Face LeRobot, Nvidia Isaac Lab, Meta Habitat 같은 플랫폼이 Diffusion Policy를 기본 알고리즘으로 채택하면서 재현성과 커뮤니티 기여가 폭발적으로 늘고 있어요. 자세한 이론적 배경은 확산 모델에 대한 Wikipedia 문서에서 확인할 수 있어요.
현장 적용 시 체크해야 할 포인트
연구실에서 성공했다고 해서 공장이나 가정 로봇에 그대로 붙일 수 있는 건 아니에요. 실제 서비스나 프로토타입을 만들 때 눈여겨봐야 할 실전 고려사항을 정리해 볼게요.
하드웨어 선택
- GPU는 추론용 RTX 3060~A100까지 다양하게 쓰이는데, 16스텝 DDIM 기준 10Hz 이상을 안정적으로 확보하려면 TensorRT 또는 ONNX 최적화는 사실상 필수예요.
- 카메라는 RealSense D435i, ZED 2i처럼 깊이 정보를 함께 주는 모델이 3D 확장에 유리해요.
- 로봇 본체는 Franka Panda, UR5e, xArm 7처럼 제어 주기 1kHz 이상을 지원해야 디노이징 결과를 부드럽게 전송할 수 있어요.
안전성과 실패 대응
확률적 샘플링이 본질이라 같은 상황에서도 조금씩 다른 궤적이 나올 수 있어요. 실제 제품화 단계에서는 힘/토크 센서 기반 충돌 감지, 관절 속도 리미터, 지오펜스 영역 같은 저수준 안전 계층을 반드시 추가해야 해요. 또 Out-of-Distribution 상황을 감지하기 위해 에너지 기반 확신도나 앙상블 분산을 활용하는 모니터링 계층을 얹으면 운영이 훨씬 수월해져요.
데이터 양과 품질의 균형
종종 “데이터만 많이 모으면 된다”는 오해가 있는데, 실제로는 다양성이 더 중요해요. 조명 조건, 물체 배치, 시작 자세 등을 의도적으로 섞어 200~500개의 잘 큐레이션된 시연이 2,000개의 비슷한 시연보다 훨씬 강력한 정책을 만들어요. 이 부분은 결국 사람의 판단이 들어가는 영역이라 자동화 파이프라인 옆에 데이터 큐레이터가 붙어야 해요.
정리와 앞으로의 전망
지금까지 Diffusion Policy 로봇 동작 생성 원리가 왜 중요한지, 어떻게 작동하는지, 그리고 현장에 적용할 때 무엇을 고려해야 하는지 살펴봤어요. 핵심은 “확산 과정을 통해 행동의 분포 자체를 학습한다”는 발상이에요. 이 관점은 이미지와 로봇 제어라는, 언뜻 관련 없어 보이는 두 분야를 하나의 수학적 틀로 묶어줬고, 덕분에 우리는 멀티모달하고 연속적인 행동을 훨씬 자연스럽게 생성할 수 있게 됐어요. 앞으로는 Flow Matching 기반의 빠른 샘플링, 대규모 로봇 파운데이션 모델과의 결합, 그리고 3D 공간 이해와의 통합이 큰 축을 이룰 거예요. Physical AI 시대를 여는 핵심 엔진 중 하나로서 Diffusion Policy의 여정을 계속 지켜볼 가치가 충분해요.