Part I: 피지컬AI 스택의 재구성

Chapter 3: Cosmos와 세계모델 — 데이터 부족 문제를 어떻게 푸는가

집필일: 2026-06-08 최종수정일: 2026-06-24

개요

로봇 조작 데이터는 웹 텍스트처럼 싸고 많지 않다. 공장 셀에서 물체를 집고, 실패하고, 복구하고, 품질을 확인하는 데이터는 느리게 쌓이며, 안전 승인과 라인 정지 비용까지 동반한다. Cosmos와 world-action model의 전략적 가치는 이 부족한 현실 데이터를 증폭하는 데 있다.

그러나 합성 데이터는 현실을 대체하지 않는다. 제조사의 목표는 그럴듯한 영상을 많이 만드는 것이 아니라, 실제 공정에서 중요한 variation과 failure mode를 생성하고, 이를 Isaac/Omniverse 검증과 실제 셀 평가로 되돌리는 데이터 플라이휠을 만드는 것이다.

이 장을 읽고 나면... - 로봇 데이터 병목이 왜 언어모델 데이터 병목과 다른지 설명할 수 있다. - Cosmos, Cosmos Transfer, world-action model을 제조 데이터 플라이휠 관점에서 해석할 수 있다. - 합성 데이터가 잘하는 일과 실제 접촉 검증으로 돌아가야 하는 일을 구분할 수 있다. - 첫 데이터 플라이휠 파일럿의 attempt log와 evaluation gate를 설계할 수 있다.

Figure 3.1: 공장 센서, synthetic video, action trajectory, policy evaluation이 Cosmos 데이터 플라이휠로 연결되는 구조. illustration by author AI-assisted

3.1 로봇 데이터 병목의 구조

로봇 데이터는 세 가지 이유로 비싸다. 첫째, 행동이 물리 시간을 소비한다. 둘째, 실패가 부품 파손, 설비 정지, 안전 위험으로 이어질 수 있다. 셋째, 같은 작업이라도 SKU, fixture, 조명, 마찰, 포장재, 작업자 승인 절차가 바뀌면 데이터 분포가 달라진다.

PP-Tac 같은 연구는 얇은 종이 한 장을 집는 단순해 보이는 작업도 실제로는 접촉 분포, 마찰, 미끄러짐, 손가락 협응을 요구한다는 점을 보여준다 ^[1]. STAG의 촉각 장갑은 사람 손 데이터가 물체 인식과 무게 추정에 얼마나 풍부한 정보를 담는지 보여줬다 ^[5]. 제조사의 가장 큰 데이터 원천은 처음부터 로봇 데이터가 아니라 매일 반복되는 사람 작업일 수 있다.

데이터 원천	장점	제조 리스크
사람 작업 영상	자연스러운 task variation, 풍부한 실패 단서	동의, 프라이버시, action mapping
teleoperation	로봇 action space와 직접 연결	느리고 비싸며 operator bias 존재
시뮬레이션	대량 생성, 위험한 실패 재현	물리 파라미터 mismatch
합성 영상/trajectory	rare case 확대, 빠른 variation	그럴듯하지만 실행 불가능한 샘플
실제 셀 로그	최종 truth source	수집 비용과 생산 영향

3.2 Cosmos는 현실 데이터를 증폭한다

Cosmos 흐름은 2025년 Cosmos World Foundation Model에서 시작해, Cosmos-Reason1의 physical common sense/embodied reasoning, 2026년 Cosmos 3의 omnimodal world/action model로 이어진다 ^[15]; ^[16]; ^[10]. Cosmos 3와 Cosmos Transfer는 로봇이 행동하기 전에 가능한 장면과 행동 결과를 생성하고, 보기 드문 조건을 늘리고, 데이터가 적은 작업에서 variation을 만드는 방향을 보여준다 ^[10]. 핵심은 "현실 대신 합성"이 아니라 "현실에서 얻은 적은 신호를 더 넓은 평가 공간으로 확장"하는 것이다.

좋은 합성 데이터는 task schema에 묶여야 한다. 같은 part id, fixture version, camera calibration, material parameter, quality rule, safety state를 공유하지 않으면 합성 trajectory와 실제 attempt log를 비교할 수 없다. Cosmos가 생성한 장면이 Isaac 검증과 실제 셀 평가로 이어져야 데이터 플라이휠이 닫힌다.

이 caveat는 Cosmos 논문 자체에서도 중요하다. 2025년 Cosmos WFM 논문은 policy evaluation, policy initialization, policy training, planning/MPC, synthetic data generation을 가능한 용도로 제시하지만, 그 용도들에 대한 empirical result는 포함하지 않는다고 선을 긋는다 ^[15]. 2026년 Cosmos 3는 action data 8.4M episode와 61.3K hour 규모, DROID policy post-training, RoboLab/RoboArena 평가를 추가하지만, synthetic data ablation의 overall gain은 작고 domain별 결과가 섞인다 ^[10]. 제조사는 이를 "real data replacement"가 아니라 long-tail augmentation과 evaluation-space expansion으로 써야 한다.

3.3 World-action model과 인간 영상

DreamDojo와 world-action model 계열은 인간 egocentric video와 robot post-training을 연결하려는 흐름을 보여준다 ^[11]. 제조 수작업은 사람의 손과 몸이 이미 수십 년 동안 최적화해 온 절차를 담고 있다. 사람은 부품을 살짝 밀어 정렬하고, 손끝으로 미끄러짐을 느끼고, 힘을 빼거나 더 주며, 불량 가능성을 눈과 촉각으로 동시에 확인한다.

문제는 인간 영상이 곧바로 로봇 행동이 아니라는 점이다. 카메라 시점, 손 anatomy, force intent, tool affordance, forbidden state를 로봇 action space로 번역해야 한다. DexForce가 강조하는 force-informed action과 UniTouch가 보여주는 multimodal tactile representation은 이 번역이 위치 궤적만으로 충분하지 않다는 점을 알려준다 ^[3].

Figure 3.2: 연구 민주화의 세 단계 중 S2 시뮬레이션과 S3 물리 실험의 연결. illustration by author Gemini assisted

3.4 합성 데이터가 잘하는 것과 못하는 것

합성 데이터는 rare case를 늘리고, 조명·배경·물체 위치 variation을 만들고, 위험한 충돌 후보를 가상에서 먼저 시험하고, 정책 평가를 더 촘촘하게 만드는 데 강하다. TACTO와 ObjectFolder 2.0은 촉각·시각·오디오 같은 다중 감각 데이터도 시뮬레이션과 연결될 수 있음을 보여준다 ^[2].

하지만 합성 데이터가 약한 지점도 명확하다. 얇은 필름, 젖은 표면, 분말, 크림, deformable packaging, 마모된 gripper, 센서 latency는 쉽게 어긋난다. 특히 접촉 작업은 작은 물리 파라미터 차이가 policy failure로 이어질 수 있다. 그래서 합성 데이터는 real-cell gate를 통과할 때만 생산 근거가 된다.

3.5 제조 데이터 플라이휠 설계

제조 데이터 플라이휠은 성공 영상으로 시작하지 않는다. 하나의 task id 아래 사람 시연, robot attempt, synthetic variation, simulation result, QA image, failure label, operator override가 연결될 때 시작한다. 이 구조가 있으면 정책이 실패해도 실패가 다음 데이터 생성 조건과 평가 항목으로 돌아간다.

플라이휠 단계	입력	출력
Capture	사람 작업, teleop, 실제 셀 로그	attempt record
Generate	Cosmos/합성 variation, failure prompt	candidate trajectory
Simulate	Isaac/Omniverse, physics range	pass/fail, risk label
Validate	실제 셀 shadow/supervised run	quality and safety evidence
Learn	실패 taxonomy, 재학습 데이터	updated policy/evaluation suite

3.6 제조 셀 체크포인트

첫 Cosmos 파일럿은 데이터 생성량보다 데이터 추적성을 먼저 검증해야 한다.

체크 항목	질문	통과 기준
Task identity	합성 샘플과 실제 시도가 같은 task id를 공유하는가?	sample, sim, real log join 가능
Physical parameters	mass, friction, compliance, sensor noise 범위가 기록되는가?	failure reproduction 가능
Failure coverage	성공 trajectory뿐 아니라 near miss와 reject가 있는가?	QA reject set 포함
Human bridge	사람 영상의 hand motion과 force intent가 분리되어 기록되는가?	robot action mapping 가능
Deployment gate	합성 성능이 실제 셀 승인 기준으로 연결되는가?	release decision 작성 가능

이 체크포인트를 통과하면 Cosmos는 홍보용 생성 모델이 아니라 제조 학습 루프의 한 계층이 된다.

3.7 다음에 배울 것

Part I은 NVIDIA 스택을 운영 루프, 가상 공장, 데이터 플라이휠로 나누어 재구성했다. 다음 Part II에서는 이 루프 안에서 실제로 움직이는 로봇 조작 기술로 들어간다. GR00T, 휴머노이드 VLA, 손과 촉각이 제조 수작업 자동화의 마지막 병목을 어떻게 다루는지 살펴본다.

참고문헌

Pei Lin et al. (2025). PP-Tac: Paper Picking Using Omnidirectional Tactile Feedback in Dexterous Robotic Hands. RSS 2025. https://arxiv.org/abs/2504.16649
Shaoxiong Wang et al. (2022). TACTO: A Fast, Flexible, and Open-Source Simulator for High-Resolution Vision-Based Tactile Sensors. IEEE Robotics and Automation Letters. https://arxiv.org/abs/2012.08456
Claire Chen et al. (2025). DexForce: Extracting Force-informed Actions from Kinesthetic Demonstrations for Dexterous Manipulation. IEEE Robotics and Automation Letters. https://arxiv.org/abs/2501.10356
Fengyu Yang et al. (2024). Binding Touch to Everything: Learning Unified Multimodal Tactile Representations. CVPR 2024. https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Binding_Touch_to_Everything_Learning_Unified_Multimodal_Tactile_Representations_CVPR_2024_paper.pdf
Subramanian Sundaram et al. (2019). Learning the signatures of the human grasp using a scalable tactile glove (STAG). Nature. https://doi.org/10.1038/s41586-019-1234-z
Ruohan Gao et al. (2022). ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real Transfer. CVPR 2022. https://proceedings.mlr.press/v164/gao22a.html
Yongchao Chen et al. (2025). Code-as-Symbolic-Planner: Foundation Model-Based Robot Planning via Symbolic Code Generation. IROS. https://arxiv.org/abs/2503.01700
Jacky Liang et al. (2023). Code as Policies: Language Model Programs for Embodied Control. ICRA. https://arxiv.org/abs/2209.07753
Fengyu Yang et al. (2023). Touch and Go: Learning from Human-Collected Vision and Touch. NeurIPS 2022 Datasets / ICCV 2023 (project). https://touch-and-go.github.io/
NVIDIA Cosmos team (2026). Cosmos 3: Omnimodal World Models for Physical AI. arXiv / GTC Taipei 2026. https://arxiv.org/abs/2606.02800
Shenyuan Gao et al. (2026). DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos. ICML 2026 Spotlight / arXiv. https://arxiv.org/abs/2602.06949
NVIDIA (2026). NVIDIA Expands Open Model Families to Power the Next Wave of Agentic, Physical and Healthcare AI. NVIDIA Investor Relations / GTC. https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Expands-Open-Model-Families-to-Power-the-Next-Wave-of-Agentic-Physical-and-Healthcare-AI/default.aspx
NVIDIA (2026). NVIDIA GTC Showcases Virtual Worlds Powering the Physical AI Era. NVIDIA Blog / GTC 2026. https://blogs.nvidia.com/blog/gtc-2026-virtual-worlds-physical-ai/
Seonghyeon Ye et al. (2026). World Action Models are Zero-shot Policies. arXiv. https://arxiv.org/abs/2602.15922
NVIDIA Cosmos team (2025). Cosmos World Foundation Model Platform for Physical AI. arXiv preprint. https://arxiv.org/abs/2501.03575
NVIDIA Cosmos-Reason1 team (2025). Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning. arXiv preprint. https://arxiv.org/abs/2503.15558