GS Retail · Data Science Lab
DS & MLOps Engineering
Intensive Course
From Notebook to Production Pipeline
과정 개요
여러분이 이 과정에서 무엇을 만들고, 왜 만드는지를 처음부터 끝까지 설명합니다.
이 교육이 필요한 이유
"데이터 과학은 '잘 맞춘 결과'가 아니라, '다시 나오는 결과'로 증명됩니다."
바이오 실험실을 떠올려 보세요. 동일한 샘플, 동일한 장비, 동일한 프로토콜이라면 언제, 누가 실험해도 같은 결과가 나와야 합니다. 그렇지 않다면 그 실험은 연구가 아니라 우연에 가깝습니다.
데이터사이언스도 정확히 같습니다.
| 😰 지금 우리의 현실 | 의미 |
|---|---|
| 노트북에서 한 번 잘 나온 결과 | 다시 재현 불가 |
| 개발자 PC에서만 돌아가는 코드 | 환경 종속 |
| 사람이 바뀌면 다시 만들 수 없는 모델 | 지식 소멸 |
이것은 과학이 아니라 개인기입니다.
✅ 이 과정의 목표는 단 하나 — "동일 환경 · 동일 설정 · 동일 결과"
이 과정에서 배우는 것
여러분은 아래 흐름을 직접 손으로 구현합니다.
Step 1
Notebook
실험
→
Step 2
Container
환경 고정
→
Step 3
Training
자동 실행
→
Step 4
Pipeline
자동화
→
Step 5
Config
재현
→
Step 6
Monitoring
추적
| 단계 | 집 짓기에 비유하면… |
|---|---|
| Notebook | 건축가가 아이디어를 스케치하는 단계 |
| Container | "이 자재만 써야 한다"는 자재 표준서 |
| Training | 자동화 공장에서 대량 생산 |
| Pipeline | 설계→시공→검수 자동 흐름 |
| Config | 모든 결정이 적힌 건축 문서 |
| Monitoring | 입주 후 하자 점검 |
ℹ️ 개인 실습이 아닙니다. 이 전 과정은 조직 표준으로 재사용 가능한 형태로 설계됩니다.
전체 모듈 로드맵
| 순서 | 모듈 | 핵심 기술 | 소요시간 | 난이도 |
|---|---|---|---|---|
| Module 0 | 리눅스 기초 | bash, 파일 조작, 권한, 환경변수 | 2~3시간 | ⭐ |
| Module 1 | Git 기초 | git init/clone/push, .gitignore | 2시간 | ⭐ |
| Module 2 | Docker 기초 | Dockerfile, build, run, ECR | 4~6시간 | ⭐⭐ |
| Module 3 | AWS CLI + ECR | aws configure, ecr push/pull | 2~3시간 | ⭐⭐ |
| Module 4 | SageMaker 환경 | Notebook, Custom Kernel, Lifecycle | 2시간 | ⭐⭐ |
| Module 5 | SageMaker Training | Estimator, /opt/ml/ 경로, S3 artifacts | 3시간 | ⭐⭐⭐ |
| Module 6 | 통합 실습 | 처음부터 끝까지 혼자 완주 | 반나절 | ⭐⭐⭐ |
⚠️ Module 2 Docker가 핵심입니다. 이 모듈을 이해하면 나머지가 자연스럽게 연결됩니다.
사전 준비 체크리스트
이 과정을 시작하기 전에 아래 항목을 확인하세요.
| ☐ | 확인 항목 | 확인 방법 |
|---|---|---|
| ☐ | AWS 실습 계정 발급 | 담당자에게 계정 발급 요청 |
| ☐ | SageMaker Notebook 접근 권한 | AWS 콘솔 → SageMaker 진입 가능한지 확인 |
| ☐ | GitHub 계정 + 실습 repo clone | git clone https://github.com/hakmink/gs-ds-env 성공 여부 |
| ☐ | 실습 repo 확인 | 터미널에서 ls gs-ds-env/ 확인 |
📋 복사해서 붙여넣기
# 실습 repo 클론 (SageMaker Notebook 터미널에서)
git clone https://github.com/hakmink/gs-ds-env
cd gs-ds-env
ls
ℹ️ SageMaker Notebook 터미널에서 실행하세요. 로컬 PC가 아닙니다.
이 교육이 필요한 사람
- 모델은 만들 수 있지만, 다시 설명·재현하라면 막히는 분
- 데이터사이언스를 개인 역량이 아니라 조직 역량으로 만들고 싶은 팀
- "이 모델을 왜 믿을 수 있는가"를 구조로 증명해야 하는 조직
✅ 결론: 모델은 사람이 아니라 시스템 위에서 반복 재현됩니다. 이 교육이 그 시스템을 만드는 방법을 알려줍니다.