AX 스쿼드 꿈나무반 · 원데이 워크샵

전체 일정표

09:00 ~ 18:00 · Wine → Housing → 편의점 연결

전체 일정표

하루 8시간, 3개 파트로 구성된 인과분석 원데이 워크샵의 세부 일정입니다.

09:00 – 09:30준비 · 킥오프 & 방법론 소개 · 30분

오늘 배울 EBM → DiCE → DoWhy 3종 세트의 역할과 관계를 먼저 잡아줍니다. "두 개의 데이터로 연습하는 것 → 편의점 데이터에 자신 있게 쓸 수 있다"는 맥락을 공유합니다.

  • EBM = 원인 해석 (무엇이 예측을 만들었는가)
  • DiCE = What-if 시나리오 (무엇을 바꿔야 결과가 달라지는가)
  • DoWhy = 인과 검증 (그게 진짜 원인인가)
  • S3 파이프라인 구조 안내
세션 자료 →
ℹ️ 킥오프 세션의 핵심: 방법론의 "왜"를 이해해야 실습이 살아납니다. 코드보다 개념 흐름에 집중하세요.

Part 1 — Wine Quality 데이터 · EBM + DiCE

UCI Wine Quality(레드와인 1,599개 샘플)로 EBM과 DiCE를 집중 실습합니다.

09:30 – 10:15Wine EDA & 피처 이해 · 45분

UCI Wine Quality를 탐색합니다. 11개 화학 성분이 품질 점수(0–10)에 미치는 분포와 상관을 확인하고, 분류 타겟(저/중/고품질)으로 변환합니다.

  • UCI Wine Quality 데이터 로드
  • 품질 구간화: low(≤5) / mid(6–7) / high(≥8)
  • Train 80% / Val 10% / Test 10% 분리
10:15 – 11:15EBM 실습 — 와인 품질의 원인은 무엇인가? · 60분

interpretML의 ExplainableBoostingClassifier로 EBM을 학습합니다. 각 성분의 shape function을 시각화해 알코올 임계점, 산도 패턴을 읽어냅니다.

  • shape function 시각화 — alcohol, volatile acidity, sulphates
  • pairwise interaction term 탐색
  • model.pkl → S3 output 저장
📦 산출물: shape function 차트 + "와인 품질 원인 Top 5 피처" 정리
11:15 – 12:00DiCE 실습 — "이 와인을 high-quality로 만들려면?" · 45분

DiCE-ML로 low/mid quality 샘플에 대해 counterfactual을 생성합니다. actionable(제조 단계 조절 가능) vs non-actionable(포도 품종 등 고정) 피처를 구분해 현실적인 시나리오만 도출합니다.

  • desired_class="high", actionable_features 설정
  • CF 3개 다양성 비교
📦 산출물: "medium → high 전환 레시피" 상위 3 시나리오
12:00 – 13:00점심 · 60분

Part 2 — California Housing 데이터 · S3 + EBM + DoWhy

13:00 – 13:45S3 파이프라인 연동 실습 · 45분

Wine 실습 결과물을 S3 output 버킷에 저장하고, Housing 데이터를 S3 data 버킷에서 로드합니다. conf/env/model.yml 체계로 실험을 버전 관리합니다.

  • conf 버킷: env/meta/model.yml 업로드
  • data 버킷: housing train/val/test 저장
  • output 버킷: run_manifest + artifacts
📦 산출물: s3_pipeline.py — input → model → output 자동화 스크립트
13:45 – 14:30Housing EDA & EBM 실습 — 집값의 원인은 무엇인가? · 45분

California Housing을 회귀 문제로 접근합니다. ExplainableBoostingRegressor로 위치(위도/경도), 소득 수준, 방 개수가 집값에 미치는 shape function을 해석합니다.

  • ExplainableBoostingRegressor (분류→회귀 전환)
  • shape function 연속 회귀 해석
  • 지역별 집값 분포 시각화
14:30 – 16:00DoWhy — Primary / Secondary Index 도출 · 90분

DoWhy로 집값 인과 DAG를 설계합니다. "소득 수준이 집값에 미치는 인과적 효과"를 backdoor 기준으로 식별·추정합니다.

  • DAG 정의 — MedInc(처치), MedHouseVal(결과), Lat/Long·AveRooms(교란)
  • identify_effect · backdoor_criterion
  • ATE 추정: MedInc +$35,390 / HouseAge +$550
  • primary index vs secondary index 선정
📦 산출물: 집값 인과 DAG 시각화 + primary/secondary index 정의표
16:00 – 16:15쉬는 시간 · 15분

Part 3 — 편의점 매출 연결 · 브리지 + 발표 + 회고

16:15 – 17:00브리지 세션 — 방법론 → 편의점 매출 전환 · 45분

Wine과 Housing에서 쓴 방법론을 편의점 매출 데이터에 1:1로 매핑하고, 피처 후보 목록을 직접 작성합니다.

  • Wine "성분 → 품질" = 편의점 "운영 조건 → 매출" 매핑
  • Housing "소득·위치 → 집값" = 편의점 "상권 특성 → 매출" 매핑
  • 편의점 EBM 피처 후보 설계서 초안 작성
📦 산출물: 편의점 매출 피처 설계서 초안 + DoWhy DAG 초안
17:00 – 17:45팀별 발표 & 인사이트 공유 · 45분

팀별로 오늘의 분석 결과와 편의점 적용 계획을 발표합니다. EBM · DiCE · DoWhy 각각의 인사이트와 편의점 매출에서의 primary index 후보를 공유합니다.

17:45 – 18:00회고 & 마무리 · 15분

KPT(Keep-Problem-Try) 회고와 함께 다음 스프린트 액션 아이템을 확정합니다.


워크샵 회고 요약

좋았던 것: EBM·DiCE·DoWhy 설명 가능 모델링 도구 접함 · 상관→인과 사고 전환 경험 · AI와 함께 모델링하는 워크플로우 체득 · 가설 수립→실험→조정 프로세스 경험
⚠️ 아쉬웠던 것: 기초 지식 부족(모델 평가 지표, 통계 개념) · 시간 부족 · ATE 수치→비즈니스 의미 연결 어려움 · VPN/방화벽으로 패키지 설치 불가

다음 스프린트 액션 아이템

  • 기초 선행학습: 모델 평가 지표(정확도, AUC 등) 보강
  • EBM 전환: 기존 LightGBM → EBM 대체 가능 케이스부터 적용
  • DoWhy 실무 파일럿: 인과 추론이 필요한 실제 과제에 적용
  • Papermill 활용: AI에게 ipynb 통째로 전달 → 인사이트 리포트 자동화