Chapter 8: 검증과 안전 — sim-to-real이 생산 책임을 만날 때
S3의 핵심 교훈은 에이전틱 로보틱스가 코딩 에이전트보다 검증이 어렵다는 점이다. 코드는 테스트 실패 후 되돌리면 되지만, 로봇은 제품을 망가뜨리거나 사람을 다치게 할 수 있다. 따라서 제조 피지컬AI의 품질 기준은 모델 점수보다 release gate다.
8.1 SIMPLER에서 공장 검증까지
SIMPLER는 실제 로봇 조작 정책을 시뮬레이션에서 평가하는 문제를 정리했다 [1]. 제조사는 이를 공장판으로 확장해야 한다. 정책은 단순 success rate가 아니라 cycle time, defect rate, recovery rate, safe stop rate, human override rate로 평가되어야 한다.
8.2 Robot Constitution의 제조 버전
AutoRT는 LLM/VLM이 제안한 작업을 Robot Constitution과 affordance filter로 제한한다 [2]. 제조 환경에서는 이것이 SOP, 품질문서, 안전 PLC, lockout/tagout, GMP rule로 바뀐다. "작업자가 접근하면 멈춘다" 같은 안전 규칙뿐 아니라 "검사 결과가 불확실하면 다음 공정으로 넘기지 않는다" 같은 품질 규칙도 포함해야 한다.
8.3 릴리즈 게이트
제조 로봇 정책은 다음 단계를 통과해야 한다.
- 시뮬레이션 regression test
- shadow mode: 실제 라인에서 관측만 수행
- supervised mode: 작업자 승인 후 실행
- limited autonomy: 제한된 SKU와 시간대에서 실행
- production mode: 품질 시스템과 변경관리 문서에 편입
NVIDIA의 Isaac/Cosmos/Omniverse가 강력해질수록 이 게이트를 건너뛰고 싶은 유혹도 커진다. 그러나 제조 전략의 핵심은 자율성을 빠르게 높이는 것이 아니라 검증 가능한 범위를 넓히는 것이다.
참고문헌
- Xinghang Li et al. (2024). Evaluating Real-World Robot Manipulation Policies in Simulation. arXiv.
- Anthony Brohan et al. (2024). AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents. arXiv.
- Chen Liu et al. (2023). REFLECT: Summarizing Robot Experiences for Failure Explanation. arXiv.
- NVIDIA (2026). NVIDIA and Global Robotics Leaders Take Physical AI to the Real World. NVIDIA Investor Relations.