본문 바로가기

🛠머신러닝

[인과추론의 데이터과학] 1. Potential Outcomes Framework

반응형

 

01. Causlity : 인과관계

'인과관계'는 일반적으로 어떤 사실과 다른 사실 사이의 원인과 결과 관계를 의미한다. 어떠한 원인이 있고, 항상 그에 따라 어떤 결과가 발생되는 것이 반복된다면 이는 인과관계가 있다고 할 수 있다. 인과관계를 추론하기 위해서는 단순히 우리 머릿속에 있는 추상적/관념적 연결고리가 아닌, 모든 사람들이 동일하게 방식으로 이해하고 과학적 방법으로 검증할 수 있는 수단이 필요하다. 따라서 모든 사람들이 공통의 이해를 가지고 공통의 방법론을 통해 평가하며 체계적으로 인과관계를 추론할 수 있는 프레임워크가 필요하다.

 

 

 

02. Framework 

인과관계와 관련해 다양한 프레임워크가 있는데 대표적으로 Logic / Theory - Oriented 와 Data / Evidence - Oriented 관점이 있다.

 

1️⃣ Logic / Theory - Oriented

: Theory - Based Hypothetical Causation는 이론에 기반한 가설적 인과관계로써 전통적으로 가장 많이 받아들여졌다. 수학적 법칙이나 논리적 추론에 따라 어떠한 인과관계가 형성될 수밖에 없는 당위성(logical imperative)에 따라서 인과관계를 밝히고자 하는 접근이다.

 

 

2️⃣Data / Evidence - Oriented

: Data 혹은 Evidence를 기반으로 인과관계를 추론하고자 하는 접근 방법들로, 최근에는 이러한 방법들이 더 각광받고 있다.

 

2-1 ) Statistics - Based Approach

- 통계적 비편향성(unbiasedness)을 바탕으로 인과관계를 정의한다.

- 통계적 비편향성이란, 모집단(population)에서 샘플링을 여러 번 한 뒤, 각 샘플에서 원인과 결과의 관계를 추론했을 때 평균적으로 모집단에서 가지고 있는 실제 관계를 가깝게 추론할 수 있다는 개념이다.

- 통계학관점에서 인과 추론(causal inference)은 unbiasedness estimate라고 볼 수 있다.

 

➰ 장점 

- Endogeneity를 바탕으로 하기 때문에 수학적으로 계산 가능하다.(평가를 위한 통계지표를 비교적 수월하게 만들 수 있음)

 

➰ 단점

- 어떤 데이터를 어떻게 분석해야 하는지, 어떤 요인을 통제해야 하는지 등의 데이터 분석 전략을 제시하지 못한다.

 

 

2-2) Design-Based Approach

- 인과관계를 연구 디자인적인 관점에서 처치 집단과 통제 집단으로 나누는 방식으로 인과관계를 정의한다.

- 연구 디자인을 적절하게 고안함으로써 인과 추론을 방해하는 선택 편향(selection bias)을 제거하고자 하는 접근법이다. 

 

➰ 장점

- 데이터 분석 전략을 제시할 수 있다.

- 적절한 연구 디자인만 적용할 수 있다면 인과적 구조에 대해 깊은 이해가 없더라도 인과 효과를 추정할 수 있다.

 

➰ 단점

- 인과효과가 어떤 인과적 구조와 어떤 메커니즘을 통해 발생하는지 설명하지 못한다.

 

 

2-3) Structure - Based Approach

- 원인과 결과가 얽혀있는 인과 구조(causal structure)를 직접적으로 추정하고자 하는 접근법이다.

 

➰ 장점

- 데이터 분석 전력을 제시할 수 있다.

- 원인 변수가 결과 변수에 영향을 미치는 메커니즘과 인과적인 구조를 직접 추정할 수 있다.

 

➰ 단점 

- 인과 구조를 잘못 산정할 경우 완전히 다른 추론 결과를 얻게 된다.

- 따라서 Casusal Structure의 구조를 검증하는 것이 중요한 과제가 된다.

 

 

인과관계에 관련된 다양한 프레임워크들이 어떤것이 더 우월하거나 대체 가능한 것은 아니다. 서로의 장단점이 명확하기에 하나의 현상에 대해 인과 추론 시 상호 보완적으로 활용해야 한다. 이 중, Design-Based Approach에 대해 정리하고자 한다.

 

 

 

03. Potential Outcomes Framework

 

'연구 대상에 행해지는 구체적인 처치(Treatment)를 정의할 수 없다면, 해당 처치의 인과적인 효과도 정의할 수 없다.'

 

Design Based Approach는 인과추론을 어떠한 수학공식이나 통계적 모형이 아닌 인과관계에 대한 mind & research design이 더 중요하다는 관점이다. 이러한 Design Based Approach 관점에 핵심이 되는 'Potential Outcomes Framework'에 대해 정리하고자 한다.

 

Design Based Approach는 인위적으로 디자인 될 수 있고, 연구 대상에 대한 조정/개입이 가능한 treatment에 대해 인과관계를 정의&측정할 수 있다고 간주한다. 따라서 이 관점에서는 reasarch design이 중요할 수밖에 없는데, Design Based Approach에서는 인과 추론을 위해서 복잡한 통계모형이나 빅데이터가 아닌 데이터를 모으기전에 연구자가 얼마나 적절하게 연구 디자인을 했는지가 인과 추론의 퀄리티를 정하게 된다.

 

Design Based Approach에서는 디자인이 가능한 treatment에 대해서만 인과적 추론을 할 수 있다. 그렇다면 구체적으로 특정 treatment의 인과적 효과를 어떻게 측정할 수 있을까? 이에 대해 potential outcome의 차이로 정의하는 관점이 'Potential Outcome Framework'이다. Potential Outcome Framework는 그때 상황에 따른 결정이 원인이 되어 지금의 결과로 이어졌는데, 만약 그때 다른 결정을 했다면 지금 결과가 달라졌을까?를 기본 컨셉으로 한다.

 

 

Causal effect of the treatment

= (Actual outcome for treated if treated) - (Potential outcome for treated if not treated)

 

 

이때, 특정 treatment의 효과는 treatment를 받았을 때의 결과와 만약 그 treatment를 받지 않았다면 있었을 potential outcome 간의 차이를 바탕으로 인과적 효과를 정량화할 수 있다. 이때, 'Potential outcome for treated if not treated' 부분을 'Counterfactual'라고 하며 이는 Potential Outcomes Framework에서 가장 중요한 기능 중 하나이다. 여기서 중요한 점은 같은 대상 즉, treatment그룹에서의 실제 결과와 그들의 잠재적 결과를 비교 분석한다는 점이다.

또한 Potential Outcome Framework에서 측정하는 인과효과(causal effect)는 모두 Average Treatment Effect onf the Treated ('ATT / ATE')라고 한다. (이때 우리가 추정할 수 있는것은 'ATT') 하지만 Potential Outcome Framework에서는 treated 그룹에 대해서만 효과를 비교하기 때문에 Control 그룹에서도 동일하게 적용될지 명확하게 알 수 없다. 결국 Potential Outcome Framework에서는 같은 대상에 대한 잠재적 결과를 비교해야 하는데, 이러한 비교가 현실에서 가능할까? 불가능하다면 우리는 어떠한 비교를 할 수 있을까?

 

 

3-1. Fundamental problem of causal inference

Potential Outcome Framework 관점에는 potential outcome을 모두 관찰할 수 없다는 근본적인 문제가 존재한다. Treatment를 받았거나 받지 않은 상황 중 한 가지만 관찰할 수 있다. 즉, Treatment를 받았을 수도 있고 안 받았을 수도 있는 애매한 상태에 대한 관찰이 불가능하다는 것이다. 인과 효과를 정확하게 알기 위해서는 Counterfactual이 필요하지만 이는 우리가 직접 관찰할 수 없고, Control 그룹의 정보만 알 수 있다. 따라서 인과 추론이 어려운 이유는 conterfactual과 control그룹의 차이때문일것이며, 이를 해결하기 위해 control 그룹을 최대한 conterfactual에 가깝게 만들어야 한다.

 

 

3-2. Selection Bias : 선택 편향

앞서, countrfactul와 control 그룹 간의 차이가 인과 추론을 어렵게 만든다고 했다.

(countfactul은 treatment그룹 내에서 treatment가 없을 때의 결과 / control그룹은 아예 treatment를 받지 않은 그룹을 의미)

이때 counterfactul과 control그룹 간의 차이'Selection Bias'라고 한다.

 

현실에서는 treatment가 랜덤 하게 배정되지 않고, 여러 가지 이유로 자발적으로 treatment를 받을지/ 받지 않을지 선택하게 되는 경우가 많다. 따라서 treatment와 control 그룹의 특성이 달라 비교 불가능한 상태가 될 수 있다. treatment효과는 실제 인과 효과와 선택 편향이 더해진 것인데, 이때 선택 편향을 줄일 수 있다면 관찰한 결과로 인과 효과를 추정할 수 있을 것이다. 

 

결과적으로 Potential Outcomes Framework에서 인과 추론이란 selective bias(선택 편향)을 제거하는 과정이다. 따라서 선택 편향을 제거하기 위해 treatment를 제외한 모든 요인들을 최대한 비슷하게 만들어 counterfactual과 유사한 control그룹을 찾을 수 있도록 연구 디자인을 설계해야 한다는 게 Potential Outcomes Framework의 관점이다.

 

 

 

 

🖇참고문헌

(본 게시물은 'Session1-2. 잠재적 결과 프레임워크 : Potential Outcome Framework'강의를 듣고 정리한 글입니다.)

https://www.youtube.com/watch?v=C15mZUnN7Ng

반응형