전체 일정표
09:00 ~ 18:00 · Wine → Housing → 편의점 연결
전체 일정표
하루 8시간, 3개 파트로 구성된 인과분석 원데이 워크샵의 세부 일정입니다.
오늘 배울 EBM → DiCE → DoWhy 3종 세트의 역할과 관계를 먼저 잡아줍니다. "두 개의 데이터로 연습하는 것 → 편의점 데이터에 자신 있게 쓸 수 있다"는 맥락을 공유합니다.
- EBM = 원인 해석 (무엇이 예측을 만들었는가)
- DiCE = What-if 시나리오 (무엇을 바꿔야 결과가 달라지는가)
- DoWhy = 인과 검증 (그게 진짜 원인인가)
- S3 파이프라인 구조 안내
Part 1 — Wine Quality 데이터 · EBM + DiCE
UCI Wine Quality(레드와인 1,599개 샘플)로 EBM과 DiCE를 집중 실습합니다.
UCI Wine Quality를 탐색합니다. 11개 화학 성분이 품질 점수(0–10)에 미치는 분포와 상관을 확인하고, 분류 타겟(저/중/고품질)으로 변환합니다.
- UCI Wine Quality 데이터 로드
- 품질 구간화: low(≤5) / mid(6–7) / high(≥8)
- Train 80% / Val 10% / Test 10% 분리
interpretML의 ExplainableBoostingClassifier로 EBM을 학습합니다. 각 성분의 shape function을 시각화해 알코올 임계점, 산도 패턴을 읽어냅니다.
- shape function 시각화 — alcohol, volatile acidity, sulphates
- pairwise interaction term 탐색
- model.pkl → S3 output 저장
DiCE-ML로 low/mid quality 샘플에 대해 counterfactual을 생성합니다. actionable(제조 단계 조절 가능) vs non-actionable(포도 품종 등 고정) 피처를 구분해 현실적인 시나리오만 도출합니다.
- desired_class="high", actionable_features 설정
- CF 3개 다양성 비교
Part 2 — California Housing 데이터 · S3 + EBM + DoWhy
Wine 실습 결과물을 S3 output 버킷에 저장하고, Housing 데이터를 S3 data 버킷에서 로드합니다. conf/env/model.yml 체계로 실험을 버전 관리합니다.
- conf 버킷: env/meta/model.yml 업로드
- data 버킷: housing train/val/test 저장
- output 버킷: run_manifest + artifacts
California Housing을 회귀 문제로 접근합니다. ExplainableBoostingRegressor로 위치(위도/경도), 소득 수준, 방 개수가 집값에 미치는 shape function을 해석합니다.
- ExplainableBoostingRegressor (분류→회귀 전환)
- shape function 연속 회귀 해석
- 지역별 집값 분포 시각화
DoWhy로 집값 인과 DAG를 설계합니다. "소득 수준이 집값에 미치는 인과적 효과"를 backdoor 기준으로 식별·추정합니다.
- DAG 정의 — MedInc(처치), MedHouseVal(결과), Lat/Long·AveRooms(교란)
- identify_effect · backdoor_criterion
- ATE 추정: MedInc +$35,390 / HouseAge +$550
- primary index vs secondary index 선정
Part 3 — 편의점 매출 연결 · 브리지 + 발표 + 회고
Wine과 Housing에서 쓴 방법론을 편의점 매출 데이터에 1:1로 매핑하고, 피처 후보 목록을 직접 작성합니다.
- Wine "성분 → 품질" = 편의점 "운영 조건 → 매출" 매핑
- Housing "소득·위치 → 집값" = 편의점 "상권 특성 → 매출" 매핑
- 편의점 EBM 피처 후보 설계서 초안 작성
팀별로 오늘의 분석 결과와 편의점 적용 계획을 발표합니다. EBM · DiCE · DoWhy 각각의 인사이트와 편의점 매출에서의 primary index 후보를 공유합니다.
KPT(Keep-Problem-Try) 회고와 함께 다음 스프린트 액션 아이템을 확정합니다.
워크샵 회고 요약
다음 스프린트 액션 아이템
- 기초 선행학습: 모델 평가 지표(정확도, AUC 등) 보강
- EBM 전환: 기존 LightGBM → EBM 대체 가능 케이스부터 적용
- DoWhy 실무 파일럿: 인과 추론이 필요한 실제 과제에 적용
- Papermill 활용: AI에게 ipynb 통째로 전달 → 인사이트 리포트 자동화