로봇이 “배고픈데 간식 좀 가져다줘”라는 자연어 명령을 듣고 부엌으로 가서 사과를 집어오는 모습을 상상해 본 적 있나요? 구글이 2022년 공개한 SayCan 언어 행동 모델은 바로 이 상상을 현실로 만들어 준 핵심 연구예요. 거대언어모델(LLM)이 가진 풍부한 상식과 로봇의 물리적 실행 능력을 영리하게 결합한 SayCan은 이후 등장한 RT-2, VoxPoser, Code as Policies 같은 후속 연구의 뿌리 역할을 했답니다. 이번 글에서는 SayCan이 정확히 무엇이고, 어떤 수학적 구조 위에서 작동하며, 왜 Physical AI 시대의 출발점으로 평가받는지 차근차근 풀어드릴게요.
SayCan이 등장한 배경과 핵심 문제 정의
SayCan의 정식 논문 제목은 “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances”예요. 제목이 곧 문제 정의 그 자체죠. 거대언어모델은 “키친에서 사과를 가져와”라는 명령을 받으면 멋진 단계별 계획을 술술 작성할 수 있어요. 하지만 그 계획에는 치명적인 함정이 있어요. 모델이 현재 로봇이 어디에 있는지, 손에 무엇을 들고 있는지, 주변에 어떤 물체가 있는지 전혀 모른다는 점이에요.
언어 모델의 상식과 로봇의 한계 사이의 간극
예를 들어 LLM에게 “탁자 위 사과를 가져다 줘”라고 시키면 “1) 사과를 향해 이동한다 2) 집어 든다 3) 사용자에게 가져온다”는 그럴듯한 계획을 낼 거예요. 그런데 만약 로봇이 부엌이 아닌 거실에 있고, 거실 탁자에는 사과가 없고 바나나만 있다면 어떻게 될까요? LLM 단독으로는 이런 환경 맥락을 알 길이 없죠. 결국 실행 불가능한 명령을 그대로 내려보내게 돼요.
어포던스(Affordance) 개념의 부활
여기서 SayCan 연구팀은 인지심리학자 제임스 깁슨이 1970년대 제안한 어포던스 개념을 끌어와요. 어포던스란 “현재 환경에서 행위자가 실제로 수행 가능한 행동의 가능성”을 뜻해요. 로봇 입장에서 보면 “지금 이 위치에서 이 물체를 잡는 행동이 성공할 확률은 얼마인가”로 해석할 수 있죠. SayCan은 LLM이 가진 의미적 적합성(say)과 로봇이 가진 물리적 실행 가능성(can)을 곱해서 다음 행동을 결정하는 우아한 해법을 제시했어요.

Say와 Can의 결합: 수학적 구조와 알고리즘
SayCan의 핵심 수식은 놀라울 만큼 단순해요. 매 단계마다 로봇이 수행할 수 있는 스킬(skill) 집합이 미리 정의돼 있고, 각 스킬에 대해 두 개의 점수를 계산한 뒤 곱하는 방식이에요. 이 단순한 구조 덕분에 새로운 LLM이나 새로운 로봇으로 갈아 끼우기가 매우 쉬워졌답니다.
P(skill | instruction) — 언어 모델의 의미 점수
먼저 LLM은 “사용자 명령이 주어졌을 때, 각 스킬이 다음 단계로 적절할 확률”을 평가해요. SayCan 원논문은 PaLM-540B를 사용했고, 약 550개의 사전 정의된 짧은 스킬(예: “사과를 집는다”, “쓰레기통으로 이동한다”)에 대해 토큰 단위 로그 확률을 계산해 normalize했죠. 이 값이 바로 say 점수예요. 의미적으로 말이 되는 행동에 높은 점수가 매겨져요.
P(success | skill, state) — 가치 함수 점수
can 점수는 강화학습으로 미리 학습된 가치 함수 또는 어포던스 함수가 담당해요. 카메라 이미지와 스킬 이름을 입력받아 “지금 이 상황에서 이 스킬을 시도하면 성공할 확률은 얼마인가”를 0~1 사이 값으로 출력하죠. SayCan 팀은 BC-Z 같은 행동 복제 모델과 QT-Opt 강화학습 가치 함수를 활용해 이 점수를 산출했어요.
최종 결정과 반복 호출
두 점수를 단순히 곱하면 “의미도 맞고 실행도 가능한” 스킬에만 높은 종합 점수가 매겨져요. argmax로 최적 스킬을 골라 실행한 뒤, LLM 프롬프트에 “방금 X를 했다”를 추가해 다음 단계 결정으로 넘어가는 구조랍니다. “done” 토큰이 가장 높은 점수를 받으면 시퀀스가 종료돼요. 이 반복 호출 패턴은 ReAct, Toolformer 같은 후속 LLM 에이전트 연구에도 큰 영향을 줬어요.
실험 결과로 본 SayCan의 성능
구글은 자사의 Everyday Robots 플랫폼을 사용해 부엌과 사무실 환경에서 101가지 자연어 지시를 실험했어요. 단순한 단일 객체 명령부터 “음료가 쏟아졌으니 닦을 것을 가져와” 같은 다단계 추상적 명령까지 포함됐죠. 결과는 당시 학계에 적지 않은 충격을 줬답니다.
주요 정량 지표
- 계획 성공률 84%: LLM이 적절한 스킬 시퀀스를 생성한 비율로, 어포던스 미포함 베이스라인 대비 약 1.5배 향상
- 실행 성공률 74%: 계획을 끝까지 물리적으로 완료한 비율
- 장기 horizon 작업(다단계): 7단계 이상 명령에서도 50% 이상 성공, 기존 단일 모델 기반 접근법은 10% 미만에 그쳤어요
실패 사례에서 보이는 한계
물론 만능은 아니에요. 가치 함수가 본 적 없는 새로운 물체가 등장하면 can 점수가 부정확해지고, LLM이 모호한 지시를 잘못 해석해 비효율적인 경로를 선택하는 경우도 있었어요. 또 사전 정의된 550개 스킬 외 행동은 절대 못 한다는 한계도 분명했죠. 이 한계는 후속 연구인 RT-2가 비전-언어-액션(VLA) 모델로 스킬 집합을 통째로 학습하며 극복하려 했답니다.
SayCan이 Physical AI 생태계에 남긴 유산
2026년 시점에서 보면 SayCan은 단순한 한 편의 논문을 넘어, 현재 폭발적으로 성장 중인 로봇 파운데이션 모델(RFM) 분야의 패러다임을 정립한 작품이에요. 어떤 점에서 그렇게 평가받는지 짚어볼게요.
모듈러 설계의 표준이 되다
SayCan은 “고수준 계획은 LLM, 저수준 제어는 별도 모델”이라는 분리 설계를 정착시켰어요. 이후 등장한 PaLM-E, RT-2, Gemini Robotics, OpenVLA 같은 모델들도 정도의 차이는 있지만 이 구조를 부분적으로 계승하고 있죠. 산업 현장에서도 LLM 플래너 + 로봇 컨트롤러 조합은 사실상 표준 아키텍처가 됐답니다.
VoxPoser, Code as Policies로의 진화
SayCan의 “스킬 집합을 미리 정의해야 한다”는 제약은 곧 한계로 지적됐어요. 이를 극복하기 위해 Code as Policies(2022)는 LLM이 직접 파이썬 코드를 생성해 새로운 행동을 즉석에서 합성하는 방식을 제안했고, VoxPoser(2023)는 LLM이 3D 공간상의 비용 함수를 생성하면 모션 플래너가 이를 풀어내는 방식으로 발전했어요. 모두 SayCan이 닦아 놓은 토양 위에서 자란 연구라고 볼 수 있죠.
휴머노이드 시대의 디딤돌
2026년 현재 Figure AI, 1X, Tesla Optimus, Unitree H1 같은 휴머노이드 기업들이 모두 자체 파운데이션 모델을 개발 중이에요. 흥미롭게도 이들 대부분은 SayCan 스타일의 LLM 플래너 + 비전-액션 정책 모델 조합을 기본 골격으로 채택했답니다. 특히 가정용 휴머노이드는 사용자의 모호한 자연어 명령을 처리해야 하기 때문에 SayCan의 say-can 결합 원리가 더욱 중요해지고 있어요.
SayCan을 직접 공부하고 싶다면
SayCan은 비교적 진입 장벽이 낮은 연구라 입문자에게도 추천할 만해요. 공식 프로젝트 페이지에서 데모 영상과 코드 일부를 제공하고, 핵심 아이디어 자체는 LLM API와 간단한 가치 함수만 있으면 시뮬레이션으로 재현해 볼 수 있답니다.
학습 로드맵 제안
- 원논문(arXiv:2204.01691)을 2~3회 정독하며 say/can 분리 구조 이해
- PaLM 대신 GPT-4o-mini나 Claude Haiku로 say 점수 산출 코드 작성
- Habitat-Sim이나 RoboCasa 환경에서 단순화된 어포던스 함수 구현
- RT-1, RT-2 논문으로 넘어가 스킬 집합의 학습 기반 확장 학습
- VoxPoser와 Code as Policies로 마무리하며 SayCan의 한계 극복 방식 비교
관련 오픈소스 자원
Hugging Face의 LeRobot 라이브러리는 SayCan에서 영감 받은 다양한 정책 모델과 데이터셋을 모아 두었어요. Open X-Embodiment 데이터셋도 SayCan 후속 연구에 활용된 핵심 자원이라 함께 살펴보면 좋아요. 시뮬레이션은 NVIDIA Isaac Sim이나 MuJoCo Menagerie를 권하는데, 둘 다 무료로 사용 가능하고 LLM 플래너와 연동이 용이하답니다.
마치며: SayCan이 보여준 Physical AI의 가능성
SayCan은 거대한 신경망 하나로 모든 것을 해결하려 하지 않았어요. 오히려 LLM과 로봇의 강점을 분리해 보고, 두 점수를 단순히 곱하는 영리한 결합으로 실용적 성과를 만들어 냈죠. 이 “단순함 속의 깊이”가 바로 SayCan을 Physical AI 시대의 출발점으로 만든 비밀이에요. 앞으로 휴머노이드와 가정용 로봇이 우리 일상에 들어올수록 SayCan이 제시한 say-can 결합 원리는 더욱 빛을 발할 거예요. 자세한 원문은 SayCan 공식 프로젝트 페이지와 위키백과 LLM 항목에서 확인해 보세요.