📖 용어 가이드

EBM · DiCE · DoWhy 핵심 용어 정리 및 변수 역할 5종 매핑
EBM 5개 DiCE 4개 DoWhy 6개 변수 역할 5종

EBM 용어

ℹ️ EBM(Explainable Boosting Machine)은 interpretML 라이브러리의 설명 가능한 부스팅 모델이다.
Shape Function
피처 영향 곡선 피처값 변화에 따라 예측값이 어떻게 달라지는지 보여주는 비선형 함수. "모양 함수"라고 번역하지 않는다.
Feature Importance
피처 중요도 각 피처가 예측에 기여하는 평균적 크기. Shape Function의 분산(표준편차)으로 계산.
Interaction Term
상호작용 항 두 피처가 결합할 때 나타나는 추가 효과. EBM은 pairwise interaction을 자동 탐색 (interactions=5 등).
Global Explanation
전역 설명 전체 데이터셋에 대한 모델 동작 설명. 모든 샘플의 평균적 피처 영향을 요약.
Local Explanation
지역 설명 특정 샘플 하나에 대한 설명. "이 와인이 왜 Not Good으로 예측됐는가?" 같은 개별 질문에 답.
⚠️ Shape Function ≠ "모양 함수". 이 용어는 "피처 영향 곡선"으로 번역해야 직관적으로 이해된다.

DiCE 용어

ℹ️ DiCE(Diverse Counterfactual Explanations)는 "어떻게 바꿔야 원하는 결과가 나오는가?"를 다양한 경로로 제시한다.
Counterfactual
반사실 (反事實) "만약 이렇게 바꿨다면 결과가 달랐을 것이다"라는 가정적 시나리오. 실제로 일어나지 않은 상황을 분석.
Actionable Feature
변경 가능 피처 사람이 바꿀 수 있는 피처. 와인에서 alcohol, sulphates, total SO₂ 등. DiCE가 이 피처만 수정.
Non-actionable Feature
변경 불가 피처 공정이나 물리적 특성으로 고정된 피처. 와인에서 fixed_acidity, density 등. DiCE 변경 대상에서 제외.
Proximity
근접성 반사실이 원래 샘플에서 얼마나 가까운가. 피처 변경 폭이 작을수록 근접성이 높고 현실적이다.

DoWhy 용어

ℹ️ DoWhy는 인과 그래프(DAG)를 명시하고 Backdoor Criterion으로 인과 효과를 식별·추정한다.
Treatment
처치 변수 인과 개입(intervention)의 대상. "소득을 바꾸면?" 에서 MedInc가 처치 변수.
Outcome
결과 변수 처치의 영향을 측정하려는 변수. MedHouseVal(집값)이 결과 변수.
Confounder
교란 변수 처치와 결과 양쪽에 동시에 영향을 미쳐 인과 추정을 왜곡하는 변수. AveRooms, Population 등.
Estimand
추정 목표 추정하려는 인과 효과의 수학적 정의. identify_effect()가 Backdoor Criterion을 적용해 Estimand를 도출.
Backdoor Path
뒷문 경로 처치 → 결과의 직접 경로 외에, 교란 변수를 통해 돌아가는 간접 경로. 이를 차단해야 순수 인과 효과를 분리 가능.
ATE
평균 처치 효과 (Average Treatment Effect) 처치 변수를 1단위 증가시킬 때 결과 변수가 평균적으로 얼마나 변하는가. MedInc ATE = +$35,390.

변수 역할 5종

데이터셋의 각 피처는 분석 목적에 따라 서로 다른 역할을 맡는다. 같은 피처가 데이터셋에 따라 역할이 바뀔 수 있다.

Primary

주요 처치 후보

DoWhy에서 처치 변수(Treatment) 역할. 인과 효과를 측정하고 싶은 핵심 변수.

Secondary

부차 분석 변수

주요 피처 외에 추가로 인과 효과를 살펴볼 변수. HouseAge가 두 번째 처치 변수로 분석됨.

Confounder

교란 변수

처치·결과 양쪽에 영향. DoWhy DAG에 명시해 Backdoor Path를 차단. 통제하지 않으면 인과 추정 왜곡.

Actionable

변경 가능 피처

DiCE 반사실 생성 시 변경 가능한 피처. 사람이 개입해 조절할 수 있는 변수.

Non-actionable

변경 불가 피처

물리적·공정적으로 고정된 피처. DiCE 시나리오에서 잠금 처리해 제외. 와인에서 fixed_acidity, density 등.

역할 Wine Quality 예시 Housing 예시 편의점 예시 (예정)
Primary alcohol (주요 품질 레버) MedInc (처치 변수) 프로모션 여부
Secondary sulphates, pH HouseAge 날씨, 요일
Confounder volatile acidity AveRooms, AveOccup 점포 위치, 유동인구
Actionable alcohol, total SO₂, sulphates MedInc (개입 가능 상상) 가격, 진열 위치
Non-actionable fixed_acidity, density Latitude, Longitude 점포 면적, 개점 연도

3종 방법론 최종 매핑표

EBM · DiCE · DoWhy가 각 데이터셋에서 무엇을 하는지 한 눈에 정리한다.

방법론 Wine Quality에서 Housing에서 핵심 질문
EBM 이진 분류 (Good/Not Good)
피처 중요도 + Shape Function
회귀 (집값 예측)
R²=0.84, 지리 중요도 1·2위
왜 이 예측이 나왔는가?
DiCE Not Good → Good으로 바꾸려면?
3가지 반사실 시나리오 제시
(Housing에서는 미적용) 어떻게 바꾸면 원하는 결과가 나오는가?
DoWhy (Wine에서는 미적용) MedInc → MedHouseVal 인과 효과
ATE +$35,390 (교란 통제 후)
이 변수가 실제로 결과를 유발하는가?

학습 권장 순서

3종 방법론은 독립적이지만, 아래 순서로 익히면 가장 자연스럽다.

EBM 피처 중요도
EBM Shape Function
DiCE 반사실
DoWhy DAG
DoWhy ATE
Step 1

EBM으로 "왜" 파악

피처 중요도와 Shape Function으로 어떤 변수가 결과에 영향을 주는지 탐색한다.

Step 2

DiCE로 "어떻게" 개선

EBM이 찾은 중요 피처를 Actionable로 설정하고, 반사실 시나리오로 개선 경로를 탐색한다.

Step 3

DoWhy로 "정말" 검증

EBM 피처 중요도에서 발견한 관계가 인과적인지, 교란 통제 후에도 유지되는지 확인한다.

"EBM은 탐정, DiCE는 컨설턴트, DoWhy는 판사다. 탐정이 단서를 찾고, 컨설턴트가 해결책을 제안하고, 판사가 인과 관계를 최종 판결한다."