Chapter 3: Cosmos와 세계모델 — 데이터 부족 문제를 어떻게 푸는가
로봇 조작의 가장 큰 병목은 데이터다. 웹 텍스트는 거의 무한하지만, 로봇이 실제 물체를 잡고 실패하고 다시 시도하는 데이터는 비싸고 느리다. Cosmos는 이 병목을 줄이기 위한 NVIDIA의 세계모델 플랫폼이다. 2025년 CES에서 공개된 Cosmos는 physical AI용 world foundation model로 제시됐고 [1], 2026년 6월 GTC Taipei에서 공개된 Cosmos 3는 vision reasoning, world generation, action prediction을 하나로 묶는 open model family로 발표됐다 [2].
3.1 세계모델의 약속
세계모델은 로봇이 행동하기 전 "이렇게 움직이면 어떤 일이 벌어질까"를 예측하게 한다. 제조 수작업에서는 이것이 중요하다. 화장품 용기를 집는 작업은 겉보기에는 단순하지만, 미끄러짐, 눌림, 캡의 토크, 라벨 위치, 점성 내용물의 흔들림 같은 변수가 있다. 모든 조합을 실제 라인에서 실험하면 비용이 너무 크다.
Cosmos 3 발표에서 NVIDIA는 text, image, video, ambient sound, action을 다루는 omnimodel과 synthetic data generation을 강조했다 [2]. 이를 그대로 믿기보다 제조사는 세 가지 질문으로 평가해야 한다. 첫째, 생성된 데이터가 실제 센서 노이즈와 접촉 실패를 충분히 포함하는가. 둘째, synthetic trajectory가 실제 로봇 컨트롤러의 지연/한계와 맞는가. 셋째, 실패 케이스가 과소표현되지 않는가.
3.2 Synthetic data는 공짜 데이터가 아니다
GR00T N1 발표에서 NVIDIA는 synthetic manipulation motion generation blueprint를 통해 780,000개 synthetic trajectory, 6,500시간 상당의 human demonstration data를 11시간에 생성했고, real data와 결합해 GR00T N1 성능을 40% 개선했다고 밝혔다 [3]. 이 수치는 강력하지만, 제조 적용에서는 조건부로 읽어야 한다. synthetic data는 물리 모델, 초기 demonstration, scene asset, evaluation metric이 정확할 때만 이득을 준다.
제조사는 synthetic data를 "현실 데이터 대체재"가 아니라 "현실 데이터 증폭기"로 써야 한다. 예를 들어 cap closing task에서 작업자 demonstration 200개를 수집하고, 용기 위치, 마찰, 캡 초기각, 토크 한계, 카메라 위치를 랜덤화해 수만 개 trajectory를 만든 뒤, 실제 라인에서 failure mode를 다시 수집해 simulation parameter를 보정하는 식이다.
3.3 데이터 공장의 운영 설계
NVIDIA의 Physical AI Data Factory Blueprint가 중요한 이유는 모델보다 운영 절차를 바꾸기 때문이다 [2]. 제조사는 다음 네 종류의 데이터를 한곳에 모아야 한다.
- 실제 작업자/텔레옵 demonstration
- Isaac/Cosmos synthetic trajectory
- 검사/품질 결과와 실패 라벨
- 생산 제약: cycle time, hygiene, line stop cost, safety rule
이 네 가지가 연결되면 제조사는 작업 하나를 자동화하고 끝나는 것이 아니라, 작업 전환 비용이 줄어드는 학습 시스템을 갖게 된다.
참고문헌
- NVIDIA Research (2025). Cosmos World Foundation Model Platform for Physical AI. arXiv:2501.03575.
- NVIDIA (2026). NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI. NVIDIA Investor Relations.
- NVIDIA (2025). NVIDIA Announces Isaac GR00T N1 and Simulation Frameworks. NVIDIA Newsroom.
- Josh Tobin et al. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv.
- Anthony Brohan et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv.