📖 용어 가이드
EBM · DiCE · DoWhy 핵심 용어 정리 및 변수 역할 5종 매핑
EBM 5개
DiCE 4개
DoWhy 6개
변수 역할 5종
EBM 용어
ℹ️ EBM(Explainable Boosting Machine)은 interpretML 라이브러리의 설명 가능한 부스팅 모델이다.
Shape Function
피처 영향 곡선
피처값 변화에 따라 예측값이 어떻게 달라지는지 보여주는 비선형 함수. "모양 함수"라고 번역하지 않는다.
Feature Importance
피처 중요도
각 피처가 예측에 기여하는 평균적 크기. Shape Function의 분산(표준편차)으로 계산.
Interaction Term
상호작용 항
두 피처가 결합할 때 나타나는 추가 효과. EBM은 pairwise interaction을 자동 탐색 (interactions=5 등).
Global Explanation
전역 설명
전체 데이터셋에 대한 모델 동작 설명. 모든 샘플의 평균적 피처 영향을 요약.
Local Explanation
지역 설명
특정 샘플 하나에 대한 설명. "이 와인이 왜 Not Good으로 예측됐는가?" 같은 개별 질문에 답.
⚠️ Shape Function ≠ "모양 함수". 이 용어는 "피처 영향 곡선"으로 번역해야 직관적으로 이해된다.
DiCE 용어
ℹ️ DiCE(Diverse Counterfactual Explanations)는 "어떻게 바꿔야 원하는 결과가 나오는가?"를 다양한 경로로 제시한다.
Counterfactual
반사실 (反事實)
"만약 이렇게 바꿨다면 결과가 달랐을 것이다"라는 가정적 시나리오. 실제로 일어나지 않은 상황을 분석.
Actionable Feature
변경 가능 피처
사람이 바꿀 수 있는 피처. 와인에서 alcohol, sulphates, total SO₂ 등. DiCE가 이 피처만 수정.
Non-actionable Feature
변경 불가 피처
공정이나 물리적 특성으로 고정된 피처. 와인에서 fixed_acidity, density 등. DiCE 변경 대상에서 제외.
Proximity
근접성
반사실이 원래 샘플에서 얼마나 가까운가. 피처 변경 폭이 작을수록 근접성이 높고 현실적이다.
DoWhy 용어
ℹ️ DoWhy는 인과 그래프(DAG)를 명시하고 Backdoor Criterion으로 인과 효과를 식별·추정한다.
Treatment
처치 변수
인과 개입(intervention)의 대상. "소득을 바꾸면?" 에서 MedInc가 처치 변수.
Outcome
결과 변수
처치의 영향을 측정하려는 변수. MedHouseVal(집값)이 결과 변수.
Confounder
교란 변수
처치와 결과 양쪽에 동시에 영향을 미쳐 인과 추정을 왜곡하는 변수. AveRooms, Population 등.
Estimand
추정 목표
추정하려는 인과 효과의 수학적 정의. identify_effect()가 Backdoor Criterion을 적용해 Estimand를 도출.
Backdoor Path
뒷문 경로
처치 → 결과의 직접 경로 외에, 교란 변수를 통해 돌아가는 간접 경로. 이를 차단해야 순수 인과 효과를 분리 가능.
ATE
평균 처치 효과 (Average Treatment Effect)
처치 변수를 1단위 증가시킬 때 결과 변수가 평균적으로 얼마나 변하는가. MedInc ATE = +$35,390.
변수 역할 5종
데이터셋의 각 피처는 분석 목적에 따라 서로 다른 역할을 맡는다. 같은 피처가 데이터셋에 따라 역할이 바뀔 수 있다.
Primary
주요 처치 후보
DoWhy에서 처치 변수(Treatment) 역할. 인과 효과를 측정하고 싶은 핵심 변수.
Secondary
부차 분석 변수
주요 피처 외에 추가로 인과 효과를 살펴볼 변수. HouseAge가 두 번째 처치 변수로 분석됨.
Confounder
교란 변수
처치·결과 양쪽에 영향. DoWhy DAG에 명시해 Backdoor Path를 차단. 통제하지 않으면 인과 추정 왜곡.
Actionable
변경 가능 피처
DiCE 반사실 생성 시 변경 가능한 피처. 사람이 개입해 조절할 수 있는 변수.
Non-actionable
변경 불가 피처
물리적·공정적으로 고정된 피처. DiCE 시나리오에서 잠금 처리해 제외. 와인에서 fixed_acidity, density 등.
| 역할 | Wine Quality 예시 | Housing 예시 | 편의점 예시 (예정) |
|---|---|---|---|
| Primary | alcohol (주요 품질 레버) | MedInc (처치 변수) | 프로모션 여부 |
| Secondary | sulphates, pH | HouseAge | 날씨, 요일 |
| Confounder | volatile acidity | AveRooms, AveOccup | 점포 위치, 유동인구 |
| Actionable | alcohol, total SO₂, sulphates | MedInc (개입 가능 상상) | 가격, 진열 위치 |
| Non-actionable | fixed_acidity, density | Latitude, Longitude | 점포 면적, 개점 연도 |
3종 방법론 최종 매핑표
EBM · DiCE · DoWhy가 각 데이터셋에서 무엇을 하는지 한 눈에 정리한다.
| 방법론 | Wine Quality에서 | Housing에서 | 핵심 질문 |
|---|---|---|---|
| EBM | 이진 분류 (Good/Not Good) 피처 중요도 + Shape Function |
회귀 (집값 예측) R²=0.84, 지리 중요도 1·2위 |
왜 이 예측이 나왔는가? |
| DiCE | Not Good → Good으로 바꾸려면? 3가지 반사실 시나리오 제시 |
(Housing에서는 미적용) | 어떻게 바꾸면 원하는 결과가 나오는가? |
| DoWhy | (Wine에서는 미적용) | MedInc → MedHouseVal 인과 효과 ATE +$35,390 (교란 통제 후) |
이 변수가 실제로 결과를 유발하는가? |
학습 권장 순서
3종 방법론은 독립적이지만, 아래 순서로 익히면 가장 자연스럽다.
EBM 피처 중요도
→
EBM Shape Function
→
DiCE 반사실
→
DoWhy DAG
→
DoWhy ATE
Step 1
EBM으로 "왜" 파악
피처 중요도와 Shape Function으로 어떤 변수가 결과에 영향을 주는지 탐색한다.
Step 2
DiCE로 "어떻게" 개선
EBM이 찾은 중요 피처를 Actionable로 설정하고, 반사실 시나리오로 개선 경로를 탐색한다.
Step 3
DoWhy로 "정말" 검증
EBM 피처 중요도에서 발견한 관계가 인과적인지, 교란 통제 후에도 유지되는지 확인한다.
"EBM은 탐정, DiCE는 컨설턴트, DoWhy는 판사다. 탐정이 단서를 찾고, 컨설턴트가 해결책을 제안하고, 판사가 인과 관계를 최종 판결한다."