GS Retail · Data Science Lab

DS & MLOps Engineering
Intensive Course

From Notebook to Production Pipeline

🎯 목표: 동일 환경 · 동일 설정 · 동일 결과 📦 gsr_ml_lab_cdp 프레임워크 기반

과정 개요

여러분이 이 과정에서 무엇을 만들고, 왜 만드는지를 처음부터 끝까지 설명합니다.

이 교육이 필요한 이유

"데이터 과학은 '잘 맞춘 결과'가 아니라, '다시 나오는 결과'로 증명됩니다."

바이오 실험실을 떠올려 보세요. 동일한 샘플, 동일한 장비, 동일한 프로토콜이라면 언제, 누가 실험해도 같은 결과가 나와야 합니다. 그렇지 않다면 그 실험은 연구가 아니라 우연에 가깝습니다.

데이터사이언스도 정확히 같습니다.

😰 지금 우리의 현실의미
노트북에서 한 번 잘 나온 결과다시 재현 불가
개발자 PC에서만 돌아가는 코드환경 종속
사람이 바뀌면 다시 만들 수 없는 모델지식 소멸

이것은 과학이 아니라 개인기입니다.

✅ 이 과정의 목표는 단 하나 — "동일 환경 · 동일 설정 · 동일 결과"

이 과정에서 배우는 것

여러분은 아래 흐름을 직접 손으로 구현합니다.

Step 1
Notebook
실험
Step 2
Container
환경 고정
Step 3
Training
자동 실행
Step 4
Pipeline
자동화
Step 5
Config
재현
Step 6
Monitoring
추적
단계집 짓기에 비유하면…
Notebook건축가가 아이디어를 스케치하는 단계
Container"이 자재만 써야 한다"는 자재 표준서
Training자동화 공장에서 대량 생산
Pipeline설계→시공→검수 자동 흐름
Config모든 결정이 적힌 건축 문서
Monitoring입주 후 하자 점검
ℹ️ 개인 실습이 아닙니다. 이 전 과정은 조직 표준으로 재사용 가능한 형태로 설계됩니다.

전체 모듈 로드맵

순서모듈핵심 기술소요시간난이도
Module 0리눅스 기초bash, 파일 조작, 권한, 환경변수2~3시간
Module 1Git 기초git init/clone/push, .gitignore2시간
Module 2Docker 기초Dockerfile, build, run, ECR4~6시간⭐⭐
Module 3AWS CLI + ECRaws configure, ecr push/pull2~3시간⭐⭐
Module 4SageMaker 환경Notebook, Custom Kernel, Lifecycle2시간⭐⭐
Module 5SageMaker TrainingEstimator, /opt/ml/ 경로, S3 artifacts3시간⭐⭐⭐
Module 6통합 실습처음부터 끝까지 혼자 완주반나절⭐⭐⭐
⚠️ Module 2 Docker가 핵심입니다. 이 모듈을 이해하면 나머지가 자연스럽게 연결됩니다.

사전 준비 체크리스트

이 과정을 시작하기 전에 아래 항목을 확인하세요.

확인 항목확인 방법
AWS 실습 계정 발급담당자에게 계정 발급 요청
SageMaker Notebook 접근 권한AWS 콘솔 → SageMaker 진입 가능한지 확인
GitHub 계정 + 실습 repo clonegit clone https://github.com/hakmink/gs-ds-env 성공 여부
실습 repo 확인터미널에서 ls gs-ds-env/ 확인

📋 복사해서 붙여넣기

# 실습 repo 클론 (SageMaker Notebook 터미널에서)
git clone https://github.com/hakmink/gs-ds-env
cd gs-ds-env
ls
ℹ️ SageMaker Notebook 터미널에서 실행하세요. 로컬 PC가 아닙니다.

이 교육이 필요한 사람

  • 모델은 만들 수 있지만, 다시 설명·재현하라면 막히는 분
  • 데이터사이언스를 개인 역량이 아니라 조직 역량으로 만들고 싶은 팀
  • "이 모델을 왜 믿을 수 있는가"를 구조로 증명해야 하는 조직
결론: 모델은 사람이 아니라 시스템 위에서 반복 재현됩니다. 이 교육이 그 시스템을 만드는 방법을 알려줍니다.