본문 바로가기
분석가의 책장/독서기록

[데이터] 데이터 분석의 힘

by 니나노래방 2023. 2. 19.

 

들어가며

데이터 분석의 힘은 데이터 분석가들이 꼭 소개해주시는 책입니다(다른 책도 한참 쌓여있긴 합니다).

데이터 분석을 하는 가장 근본적인 이유인 ‘인과관계’에 대해 궁금하다면 꼭 봐야 하는데요. 

평소 ‘인과관계’라고 대충 넘어가는 것이 사실 인과관계가 아닐 수 있다는 시점부터 머리를 한 대 얻어 맞았던 기억이 납니다. 
(아😭 그동안 내가 원하는 결론으로 결과를 끼워맞췄구나.. 하는?)

⌜데이터 분석의 힘⌟ 한 달 스터디를 하며 중요하다고 생각한 부분과 느낀 점을 정리해 봤습니다. 

 

 

전체 목차 

1장 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다
2장 오바마 캠프는 어떻게 후원금을 ‘더’ 모았을까 : 최선의 데이터 분석법, RCT
3장 70세가 되자 병원을 많이 가기 시작했다 : 급격한 변화의 ‘경계선’을 찾는 RD디자인
4장 규제 때문에 자동차가 무거워졌다고? : 계단식 변화가 있는 곳엔 집군분석
5장 소득세를 내리면 이민자가 늘어날까 : 시간의 흐름에 따른 패널 데이터 분석
6장 구글은 41가지의 파란색을 고민했다 : 데이터는 어떻게 전략이 되는가
7장 그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법

 

주요 내용 

이 책은 인과관계에 대한 우리의 잘못된 생각을 바로잡고, 인과관계를 측정할 수 있는 방법론을 소개해주며, 데이터 분석 시 유의할 점(타당성을 높이기 위한 검토사항)을 알려줍니다. 방법론까지는 모르더라도 적어도 '상관관계'를 '인과관계'로 착각하지 않게 기초를 세워줍니다. 다양한 사례로 설명하고, 수식도 하나도 없어서 데이터를 처음 접하는 분이라도 읽기 어렵지 않습니다. 

 

1) 우리가 알고 있는 인과관계는 인과관계가 아닐 수도 있다?

데이터 분석에서 하는 가장 많은 실수 중 하나는 '인과관계가 아닌 것을 인과관계로 오인하는' 것입니다. 

상관관계는 인과관계의 필요 조건일뿐 충분 조건이 되지는 않기 때문인데요. 

예를들어 여름에 광고로 아메리카노 매출이 20% 상승했다면, 이 원인을 오롯이 ‘광고’에 돌릴 수 있을까요?

아메리카노 매출이 상승해서 역으로 그 돈으로 광고를 찍었을 수 있고, 여름 날씨가 너무 더워서 매출이 올랐을 수도 있습니다.

그러니 상관관계만 보고 대충 ‘오 인과관계가 성립하네!’라고 쉽게 생각하면 안 되겠죠!

그림에서 보는 것처럼 외부 효과나 역인과관계가 일어날 가능성을 항상 염두해 두어야 합니다. 

 

 

 

2) 인과관계와 개입 효과

인과관계를 판별하는 일은 정말 어려운 일입니다. 다양한 가능성을 고려해야 하기 때문입니다.

그럼 인과관계는 어떻게 측정해야 할까요?

인과 관계를 해석하는 다양한 방법들이 있습는데요. 

 

이중에서도 저자는 개입 집단(실험군)과 비교집단(대조군) 사이의 평균 개입 효과(Average Treatment Effect, ATE) 를 측정하는 방법을 알려줬습니다. 

 

여기에서 포인트는 '집단'입니다. 한 사람이 아니라 '집단'에 미치는 효과를 측정합니다. 

이유는 사람을 둘로 쪼갤 수 없기 때문(?) 입니다. 

개입 효과란 어떤 개입(X)으로 인해 발생하는 결과의 차이값을 의미하는데요. 개입이 발생한 이후의 값을 Y1, 개입이 발생하기 전 값을 Y0라고 하면 Y1-Y0 가 개입 효과이겠죠. 

그런데 여기에서는 한 가지 문제가 있습니다. Y1과 Y0을 동시에 비교할 수 없거든요. 

예를 들어 가격인상이라는 사건(X)가 이미 발생했다면 '가격 인상이 없었을 때의 소비량(Y0)'는 있을 수 없는 겁니다. 

 

이 문제를 해결하기 위해 도널드 루빈이 제안한 방법이  바로 '집단'을 동원해 문제를 파악하는 ATE입니다. 

ATE의 전제 조건과 측정 방식은 이렇습니다. 

전제 조건 ∙ 개입 집단(treatment group)과 비교 집단(control group)을 나눕니다. 
∙ 만일 개입(X)이 없다면 개입 집단이나 비교 집단이나 동일한 결과값(Y) 을 가질 것입니다. 
측정 방법 참여자 중 N명은 개입 집단에, 나머지 N명은 비교 집단에 배정합니다. 
→ 개입 집단에만 개입(X)합니다. 
→ 개입 집단의 Y와 비교 집단의 Y를 비교합니다.
→ 둘의 차이가 '평균 개입 효과'가 됩니다. 

 

개입 집단과 비교 집단이 원인 변수 외에 다른 조건에서 차이가 없다면, 둘의 차이는 ‘원인 변수(X)’로 인해 나타났을 가능성이 높겠죠!

개입 후 두 집단의 결과값 차이를 계산해 개입 효과를 간접적으로 알아낼 수 있는 것입니다. 

데이터 분석에서 일반적으로 실행되는 A/B 테스트나 기타 실험 방법론들은 바로 이 ATE를 전제로 합니다. 

 

3) RCT(a.k.a A/B테스트)로 내적 타당성 높이기

A/B 테스트는 요새 데이터 분석가들에게는 빼놓을 수 없는 방법론입니다. ATE를 측정할 수 있는 가장 합리적인 방법이기 때문인데요.

ATE를 측정할 때의 전제 조건을 보면 '개입이 없을 때 결과값(Y)가 동일'해야 합니다.  그 말은 원인 변수 외에는 개입 집단과 비교 집단 간의 차이가 없다는 뜻입니다. 이걸 가장 잘 해낼 수 있는 환경이 바로 A/B 테스트 샘플링입니다.

 

이 책에서 RCT로도 불리는 방법론은 '무작위 비교 시행' 또는 'A/B 테스트'라고 합니다. 가장 큰 특징은 ‘무작위’, 즉 실험 참가자를 무작위로 선택하는 데 있어요. 

 

참가자가 자기 선택(self selection)으로 집단을 선택할 경우 원인 변수 외의 다른 조건에 왜곡이 발생할 가능성이 높습니다. 따라서 다른 조건의 개입을 최소화할 수 있도록 실험 대상은 무작위로 선택해야 하고, 이때도 다른 조건들에 차이가 없는지 체크하기도 해요.

 

무작위 선택 방식은 크게 두 가지 방법이 있습니다 (책에서는!)

처음부터 무작위로 뽑는 방식이 하나이며,

일정 특성 (남, 여 등) 내에서 무작위로 샘플링을 하기도 합니다. 

실험 집단을 일단 무작위로 배치하는 방법입니다.

 

무작위의 방식은 실험의 ‘내적 타당성’을 높여 줍니다. 과정이 투명하고 신뢰가 높아 사람들에게 설득력이 높은 자료가 된다는 뜻이죠.

테스트 비용이많이 들고 협력이 필요하다는 단점이 있지만, 실험의 정확성 면에서는 가장 선호할 만한 선택지입니다. 

 

4)  RCT가 아니라면 이 방법론들은 어때?

그런데 돈이 없어서, 혹은 환경적으로 RCT(A/B 테스트)를 할 수 없는 상황이라면 어떨까요?

이때도 인과관계를 간접적으로 측정할 수 있는 방법이 있습니다. 바로  ‘자연실험’ 방법론입니다.

RCT가 정해진 조건에서 참가자를 무분별로 샘플링하여 실행하는 실험이라면, 자연실험은 일반 데이터터를 이용합니다. RCT에 비해 정합성은 떨어지겠지만, 그래도 제한된 환경에서는 약이 될 수 있겠죠. 

 

1️⃣ 경계선을 활용한 RD디자인

RD디자인은 경계선을 활용합니다.  특정 경계선을 기준으로 결과값(Y)에 급격한 차이가 난다면 그 원인을 X로 보는 것입니다. 

책에는 일본의 의료비 본인 부담금이 70세 때 20%p 감소하며 병원에 방문한 환자수가 점프(비연속적으로 증가)하는 경향을 예로 들었습니다. 다른 요인의 개입이 거의 없다면 의료비 본인 부담금이 환자수 증감에 영향을 준다고 볼 수 있다는 것입니다. 

 

RD디자인의 특징과 강점, 약점은 모두 경계선에서 나옵니다. 경계선 근방에 있는 관찰값들은 원인 변수를 제외하고는 거의 동질적인 특성을 보이기 때문입니다. 예를 들어 69세 12월생과 70세 1월생이 '나이가 달라' 건강이나 소득의 차이를 보이는 것은 아닐 거예요. 따라서 경계부근에서는 인과관계를 RCT에 만큼 잘 비교할 수 있죠. 반면, 경계선 외의 영역에 대해서는 인과관계를 파악하는 데 어려움이 있습니다. 

 

 

2️⃣ 계단식 구조를 활용한 집군분석

집군분석은 계단식 구조에 활용됩니다. 예를 들어 누진세와 같은 세금, 근로장려세제처럼 특정 경계 마다 비연속적으로 결과값(Y)의 차이가 발생합니다. RD디자인과 차이는 X축의 값을 사용자가 마음대로 조정할 수 있느냐에 있습니다. 따라서 이때는 경계선 부근에서 참가자들이 더 유리한쪽으로 붙는 ‘집적 현상’이 발생해요. 

 

책의 예시에서는 자동차 무게에 따라 연비 규제가 다른 일본 사례가 소개되었습니다.

무게의 경계선을 두고 세금이 확 낮아지게 설계한 결과, 경계선 오른쪽(무게가 살짝 높은 쪽)에 자동차 생산이 쏠린 것이죠.

규제 개편 전, 후 모두 경계선 오른쪽에 값이 집되는 걸 보면 연비 규제가 자동차 무게에 끼친 인과관계를 간접적으로 설명할 수 있습니다. 

 

집군 분석도 RD 디자인처럼 특징과 강점, 약점이 경계선에서 나옵니다. 계단 경계 근방의 관찰값들로는 인과관계를 추론할 수 있지만, 경계에서 벗어난 영역에 대해서는 집군 분석이 어렵습니다. 

 

3️⃣ 자연스럽게 생긴 ‘개입 집단’과 ‘비교 집단’의 비교, 패널 데이터 분석

 

자연스럽게 생긴 집단의 차이를 가지고 비교하는 방법도 있습니다. '패널 데이터 분석'이라고 불리는 방법입니다.

패널 데이터 분석을 사용하기 위한 조건은 크게 네 가지가 있습니다.

첫째, 여러 시점의 데이터가 있어야 합니다(특히 개입 전, 개입 후).
둘째, 여러 집단의 데이터가 있어야 합니다(적어도 두 개).
셋째, 특정 시점에서 ‘개입 효과’가 한쪽 집단(개입 집단)에만 적용되어야 합니다.
넷째, 특정 시점 이전에는 두 집단이 비슷한 흐름을 보이다가 개입 효과 발생 이후로 차이가 발생해야 합니다.

 

예를 들어 스터디 카페에서 가격 정책을 바꿉니다. 가격을 10% 인상(X)했는데, 일반인만 인상하고 대학생 이하 그룹에는 현재 가격을 유지하는 거죠. 이전에는 가격이 동일했고, 개입(X) 이후 가격이 달라졌으니 자연스럽게 집단이 나뉜 것과 동일합니다.

이전에 학생 및 일반인 그룹에서 이용률이 비슷했다고 해보겠습니다. 가격 정책을 바꾼 후 학생과 일반인 그룹의 이용률 흐름이 변화했다면 가격 정책의 변경(X)이 두 그룹의 이용률(Y)에 영향을 주었다고 간접적으로 해석하는 것입니다. 

 

여기에는 한 가지 가정이 숨어 있습니다. 가격 정책을 바꾸지 않았다면 학생과 일반인 그룹의 이용률 추이는 비슷한 흐름을 보였을 것이라는 점이에요. 이 가정은 실현되지 않기에 ‘잠재적 결과’라는 약점이 있습니다. 하지만 가정이 성립한다면 두 그룹의 차이를 인과관계로 확실히 설명할 수 있습니다. 

 

 

5) 데이터 분석에서 유의해야할 점

근거 기반 의사결정(Data-Driven decision making)은 데이터가 광범위하고 정교하게 쌓이는 요즘 더 각광을 받고 있죠. 기업뿐만 아니라 정부 기관에서도 근거 기반 정책을 활용하는 경우가 많습니다.  하지만 데이터 분석이 만능이라는 생각은 맞지 않습니다. 그 이유에는 여러 가지가 있는데, 대표적으로 아래의 상황을 고려할 수 있습니다. 


  1. 데이터에 문제가 있습니다. (측정, 수치, 결측치, 표본 이슈)
  2. 분석 결과를 신뢰하거나 일반화하기 어렵습니다. (내적 타당성과 외적 타당성 문제)
  3. 편향적인 분석 결과가 나옵니다.
    ∙출판 편향, 협력 관계 편향 등 연구자에게 유리한 결과만 발표되는 경우 (통계값은 인간의 의지로 얼마든 조작(?)이 가능합니다.. 
    ∙혹은 파급효과처럼 개입 집단이 비교집단에 영향을 주는 경우
    ∙일반 균형 효과처럼 소규모 실험 효과가 대규모에는 적용되지 않는 경우입니다 (부분에선 통하는데, 전체에선 안 통하기도 합니다..)

따라서 데이터를 무조건 신뢰하지 말고 1) 데이터의 완결성과 2) 신뢰성 3) 편향성이 없는지 검토해야 합니다. 

잘못된 데이터 해석은 잘못된 의사 결정으로 이어지고, 누구에게든 큰 손실을 입힐 수 있으니 신중해야겠죠. 

 

 

 

느낀 점

예전에 데이터 분석 교육에서 프로젝트를 진행하며, 예상과 다른 값들이 줄줄 나오는 분석 결과에 당황한 적이 있었습니다.

p-value가 계속 0.05를 넘는다든지, 회귀분석 변수가 (그럴 리가 없다고 생각할 정도로) 예상하지 못하는 값이 나온다든지요..

그럴 때마다 자료 스코프를 다르게 적용해야 하나? .. 고민했던 기억이 있습니다(날아오르라 주작이여 🔥).

상관관계와 같이 데이터가 비슷한 관계를 보이면 '오, 얘네 서로 영향이 있네?' 하고 단순히 넘겨 짚었던 경험도 있습니다. 

 

그런데 이런 조작과 추측성 결론은 실험 및 데이터 분석을 하는 본질적인 의미를 퇴색시킨다는 걸 깨달았습니다. 우리가 데이터 분석을 하는 건 올바른 의사결정을 하기 위함이지, 예쁘게 보이는(?) 결과를 만들기 위한 건 아니거든요.  예전에 통계를 가르쳐주셨던 강사님께서 심플하게 ‘결과가 나왔으면 그 결과 대로 결론을 내면 된다’라는 말씀을 해주셨는데, '아 그게 이런 뜻이었구나!' 느낌이 왔습니다. 

 

그리고 이 책을 보면서 우리가 일반적으로 생각하는 ‘인과관계’를 보다 객관적으로 이해할 수 있었습니다.  A/B테스트에서 무작위 데이터를 선별하는 게 왜 중요한지 그 이유를 알 수 있어서 의미 있었습니다. '무작위로 선별해야 좋은가보지(?)' 하며 단순히 넘어갔는데, 다른 조건들의 영향을 최소화하고 객관성을 높이기 위해(내적 타당성을 높이기 위해) 사전 작업이 중요하다는 점을 배웠습니다. A/B 테스트 외의 다른 방법론들도 A/B 테스트를 사용할 수 없을 때 꼭 써보고 싶다는 생각이 들었습니다. 

 

당시 데이터 스터디를 마친 시점에서 이 책을 공부했었는데요. 당시 원인과 결과, 지표에 대한 고민을 많이 했는데 책을 보며 지표 해석에 대해 많이 고민할 수 있었던 것 같아요. 명확한 인과관계를 설명할 수 있도록 인과추론을 열심히 파야겠다는 생각이 들었습니다. 

 

감사합니다. 

댓글