글 정보
- 이 글의 개요소개 : 이 글은 <새빨간 거짓말, 통계>의 PART4-8 에 대한 리뷰 글입니다.
- 예상 독자 : 데이터를 분석하고 싶은데, 숫자를 어떻게 봐야하는지 어려워하시는 분들에게 적합해요.
- 글의 목표 : 책의 내용을 소개하고, 실제 일에는 어떻게 적용하려고 하는지 알려드리고자 합니다.
- 알면 좋은 개념 : 상관관계, 인과관계, 오차, 그래프 등 기본적인 통계 용어를 아신다면 글을 읽기 수월해요.
들어가며
이번주에는 <새빨간 거짓말, 통계>의 PART4 - 8 의 이야기입니다. 지난주에 데이터 분석을 '요리'에 비유하였는데요. PART1-3이 재료에 대한 것이라면 PART4-8은 조리와 관련된 내용이 들어 있습니다. 같은 원천 데이터를 쓰더라도, 어떻게 만지는지 해석하는지에 따라 전혀 다른 결과가 나올 수 있습니다. 데이터를 만드는 입장에선 어떻게 객관적으로 데이터를 다뤄야할지, 조심할 부분은 없을지 생각할 수 있었던 파트입니다.
목차
-- 1주차 --
PART 1. 언제나 의심스러운 여론조사 (표본 추출과 데이터 오류)
PART 2. 평균은 하나가 아니다 (대표값)
PART 3. 작은 숫자를 생략하여 사기 치는 법 (표본의 크기)
-- 2주차 --
PART 4. 쓸데없는 숫자로 벌어지는 헛소동 (표본오차)
PART 5. 사람 눈을 속이는 그래프 (시각화)
PART 6. 백문이 불여일견이라고? 천만에 (시각화)
PART 7. 아전인수를 위한 마구잡이 통계 (지표)
PART 8. 통계도 논리다 (인과관계 - 상관관계)
-- 3주차 --
PART 9. 통계를 조작하는 법 (상대값)
PART 10. 통계의 속임수를 피하는 다섯 가지 열쇠 (숫자 제대로 읽기)
* (괄호)는 파트 별 관련 개념을 넣어둔 것입니다.
책의 내용
- 딱 집어서 결론내지 맙시다 : 통계량이 항상 정확한 건 아닙니다. 오차를 고려하여 범위로 생각해야 합니다.
- 시각화를 의미 있게 쓰려면 : 시각화 알고 싶은 정보를 한눈에 보여주는 장점이 있습니다. 하지만 의도나 목적에 따라 전혀 다르게 표현할 수 있어 주의가 필요합니다 (축은 제대로 그려졌을까? 단위는 올바른가? 눈금 간격 왜곡이나 절단 문제는 없을까? 등)
- 본질을 흐릿하게 하는 기적의 논리 : 프로메테우스가 살코기는 인간에게 주고 비계만 그럴싸하게 신에게 바친 일화가 생각났습니다. 전혀 상관 없는 데이터를 가져와 근거인 것처럼 속이거나, 함께 파악해야 하는 정보를 빠뜨리거나, 맥락 없이 숫자만 보여주는 경우 본질은 흐릿해집니다.
- 인과관계로 착각하고 싶은 특성 : 상관관계와 인과관계는 다릅니다. 다른 변수가 개입하거나(혼입변수), 역의 인과관계가 있을 수 있습니다. 상관관계와 선후관계로 인과관계를 섣불리 규정하지 않고, 맥락을 파악하거나 인과 파악을 할 수 있는 객관적 방법을 이용해야겠습니다.
적용해볼 점
1. 지표의 정의와 오차를 고려하자.
<무한도전> 이라는 예능이 기억나시나요? 이들은 '평균 이하' 캐릭터라는 설정이 있죠. 책을 보며 그들은 정말 평균 이하일까? 라는 생각이 들었습니다.
- 무엇이 평균 이하일까? : 그들을 평가하는 기준은 무엇일까요? 지능이라면 IQ일 수도 있고 EQ일 수도 있죠. 혹은 체력이 평균 이하일 수도 있습니다. 체력도 근력, 지구력, 폐활량 등 다양한 지표가 있고요. 이 중 어떤 지표를 가지고 '평균 이하'라고 생각하게 되었을까 의심해볼 필요가 있습니다.
- 그 범위를 벗어났을까? : 일단 기준이 IQ라고 칩니다. 그렇다면 그들은 정말로 IQ가 평균 이하일까요? 2009년 정신감정 특집에 따르면 꼴등 멤버의 IQ는 113입니다. 대한민국 평균이 106임을 감안하면 고개가 갸웃해집니다. 하지만 완전히 안심할 수는 없습니다. 이 지표(IQ)의 표준오차가 +-10이라면 꼴등인 멤버의 IQ가 103 ~ 123이기 때문이죠. 평균보다 못할 가능성도 배제할 수 없다는 것입니다. 지표의 범위가 완전히 평균보다 낮거나, 평균보다 높으면 확실히 결론을 내릴 수 있습니다. 하지만 그게 아니라면 이 멤버가 정말 '평균 이하'라고 봐야할지 고민해봐야 합니다.
우리가 어떤 의사결정을 할 때도 마찬가지입니다. 대상 지표는 올바른지, 확실히 그 판단을 한 만큼의 수치인지 고민해봐야 한다고 생각했습니다. 예를 들어 A안이 나은지 B안이 나은지 의사결정을 해봅시다. 이때 같은 관점을 적용해서 문제를 보겠습니다.
- '어떤 기준'으로 A안과 B안을 비교할 것인가? 기준이 될 지표들을 올바르게 생각해야 합니다. 반대로 이 정보를 보는 사람이라면 해당 지표가 진짜 비교할 만한 지표인가 생각해봐야 하죠.
- 결과가 나왔을 때 A안보다 B안이 확실히 나은가? 결과값만 보고 판단하지 않습니다. 예를 들어 A안의 구매 전환율이 15.5%고, B안의 구매 전환율이 18.2%가 나왔더라도 'B안이 낫다'라고 함부로 결론 짓지 않아봅니다. 두 안의 결과가 얼마나 겹칠지, 그 겹치는 수준이 무시할 만한 수준인가 생각해야 합니다.
2. 맥락은 여전히 중요하다.
이번주도 계속 '맥락'이 중요하다고 생각했습니다. 차이는 재료와 요리의 관점인데요. 지난번에는 재료 관점에서 '맥락을 함께 제시'하자고 말씀드렸어요. 이번에는 활용 관점에서 '맥락'을 제대로 써야 좋은 분석 결과가 나온다라는 인사이트를 얻었습니다.
1️⃣ 진짜 문제를 설명해주는 지표는 뭘까?
이 문제(주제)를 설명해주는 진짜 지표는 무엇일까요? 예를 들어 문제가 두 지역의 개발자 임금 수준에 차이가 있는지 비교하고 싶다고 합니다. 이때 '비교'를 하기 위해 어떤 지표를 사용해야 할까요? 그렇다면 문제를 한번 더 들여다봅니다. 우리가 알고자 하는 '임금 수준'의 차이는 무엇을 의미할까 생각해보는 것입니다. 물가 등을 고려한 임금 차이를 알고 싶은 것인지, 눈에 보이는 임금 차이를 알고 싶은지 말이죠! 실질임금을 알고 싶다면 '비교 물가 수준'이라는 새로운 맥락을 가져올 수 있습니다. 이때 우리가 원하는 조건에서 임금 수준을 적절히 비교할 수 있을 것입니다.
한국 개발자 임금 수준 | 미국 개발자 임금 수준 | 차이 | |
명목임금 (단순한 수치) | 7,587만 원 | 1억 8,505만 원 | (+) 144% |
2022년 미국 기준 비교 물가 수준 (미국이 100일 때 나머지 국가가 어느 정도인가를 비교한 것) |
75 | 100 | |
실질임금 (명목 임금 / 물가 수준) | 1억 116만 원 | 1억 8,505만 원 | (+) 83% |
2️⃣ 제대로 된 대상을 보고 있는가?
우리가 찾는 정보의 '대상'이 맞을까도 고민해볼 수 있습니다. 정확히는 세그먼트라는 '맥락'을 확인해보는 것인데요. 만약 제가 데이터 엔지니어라고 한다면 미국 개발자 전체를 볼 것이 아니라, 미국 개발자 중 '데이터 엔지니어' 개발자들의 임금 수준을 확인해야 할 것입니다. 미국은 지역 마다 임금 수준과 물가가 다르므로, 지역도 좋은 세그먼트가 될 수 있습니다.
한국 개발자 임금 수준 | 미국 개발자 임금 수준 | 임금 수준 차이 | |
전체 개발 직군 실질임금 | 1억 116만 원 | 1억 8,505만 원 | (+) 83% |
ㄴ프론트엔드 엔지니어 | ? | ? | |
ㄴ 백엔드 엔지니어 | ? | ? | |
ㄴ 데이터 엔지니어 | 1억 5천만 원 | 1억 9천만 원 | (+) 26% |
(닐 호인 <컨버티드>의 p.136 / 양승화 <그로스해킹> p.151 '심슨의 역설'을 찾아보시면 글을 이해하는 데 도움이 됩니다)
3️⃣ 또 다른 요인이 껴든 건 아닐까?
위의 임금 비교를 다시 생각해보겠습니다. 실질임금으로 보더라도 한국보다 미국의 개발자 임금 수준이 80%이상 높으니 미국에서 개발자 생활을 하는 게 좋을까요?
그런데 이 차이를 단순히 임금 자체의 차이로 볼 수 있을지 의문입니다. 이 임금에는 근로시간, 실적 옵션(보너스), 복지급여, 근로형태 등의 요인이 포함되어 있을 수 있거든요. 따라서 가능하다면 유사하거나 동질적인 수준의 그룹끼리 비교를 할 때 더 정확한 정보가 나올 것입니다. 유사하고 동질적인 그룹을 '코호트'라고 부르고요.
물론 코호트로 한번 살을 발라냈다고 하더라도 비교 그룹을 '멸균 상태로 동질하게' 만드는 데는 어려움이 있었습니다. 이를테면 정성적인 가치가 반영되는 것인데요. 예를 들어 우리나라는 미국에 비해 고용 안정성이 높아 해당 가치가 비싸게 매겨졌을 수 있습니다. 즉, 낮은 임금 대신 고용 안정성을 안고 가는 것이죠.
책을 읽고 어떤 외부요인이 있을지 생각해보고, 이걸 어떻게 발라낼지 많이 고민해야겠다고 생각했습니다. 내가 생각하는 가정이 과연 맞을까? 다른 요인이 있었던 것은 아닐까? 고객들은 어떻게 접근할까? 내가 섣부르게 판단하는 것은 아닐까? 이런 고민을요.
이렇게 하면 분석의 타당성이 더 높아질 것이고요. 가시를 다 발라내지 못하더라도 이 부분은 주의해서 드시라는 경고 문구를 표기할 수 있을 거예요.
3. 시각화를 할 때 체크할 것들.
시각화는 가장 효율적인 동시에 가장 잘못된 정보일 수 있다는 점을 배웠습니다. 시각화에 대해 고민을 할 때 다섯 가지 질문을 해보고, 객관적인 정보를 전달할 수 있게 조율해야겠습니다.
질문 | 예시 |
어떤 지표를 사용하는가? | 2022년 실질 임금 미국 : {개발자 당해 연봉* 합계} / {개발자수} X {원달러 환율 1,400 원} 한국 : {개발자 당해 연봉* 합계} / {개발자수} / {미국 대비 비교물가수준 75/100} * 계약 연봉만 포함(복지 항목에 포함되는 식비, 교통비 등은 모두 제외) |
그 지표를 나타내는 적절한 시각화 방법은 무엇인가? | 세로형 막대 그래프 (트렌드를 확인하는 것은 아니므로, 세로형 막대그래프로 확인) |
어떻게 표현할 것인가? | - 한국 원화 수준으로 비교 (단위 : 백만 원) - 캡션 표기 (나라명, 지표값 등) |
보는 사람의 입장에서 오해의 소지가 없는가? | - 산출 근거, 지표 설명을 표 하단에 표기 - 재택 근무, 고용 안정성 등의 고려 없이 임금 수준만 비교했음을 명시 |
왜곡은 없는가? | - 세로 축을 0 기준선부터 표기하였음 - 중단점 없이 표기하였음 - 그림 도표 등 사용하지 않음 |
생각해볼 점
쿠팡의 와우 멤버십 가격 변화(X)는 멤버십 가입율(Y)에 어떤 영향을 미칠까?
얼마 전 쿠팡이 와우 멤버십 가격 인상을 발표했습니다. 기존 회원은 8월부터, 신규 회원은 4월부터 적용되는데요. 약 60%나 되는 가격 인상에 대해 고객 반응도 매우 엇갈리고 있습니다. 과연 과우 멤버십 가격 인상은 멤버십 가입에 어떤 영향을 미칠까요? 다른 요인을 최소화하면서 해당 변화에 대해 어떤 가설을 정의할 수 있을지 고민해보고 포스팅하겠습니다! 🫡
마치며
데이터를 만진다는 것은 상당한 '책임감'이 필요하다는 생각이 듭니다. '주관'이 반영되기 때문에 더욱 그렇다고 느꼈어요.
저도 사람인지라(?) '그럴듯한' 결론이라도 내려는 마구니가 씌었었습니다. 의사결정에 도움이 되게 확실한 수치가 나왔으면 좋겠다 생각합니다. 이왕이면 우리 동료가 만든 프로덕트, 마케팅이 정말 임팩트가 있어서 어디선가 잘 써먹혔으면 싶습니다. 우리가 하고 있는 이 수많은 삽질(?)이 의미 있게 증명되기를 바라는 거죠. 저뿐만 아니라 다른 분석가분들도 내새꾸가 잘 되었으면 하는 마음으로 노심초사하며 분석하고 계실 지도 몰라요.
예전에 통계 수업을 배우면서 분석가에게 가장 필요한 덕목 중 하나는 '결론이 안 나왔습니다'라는 말을 해야 하는 것이라고 들었습니다. 뭐라도 결론이 나야할 것 같은데 나오지 않는 상황은 매번 당해도 당황스럽습니다. 하지만 데이터 분석가는 올바른 데이터를 올바르게 다루고, 정보 신뢰성을 유지해야 하는 사람들이라고 생각합니다. 잘못된 데이터로 의사결정이 잘못 된다면 분석의 신뢰도는 떨어집니다. 신뢰 자본을 잃으면 막대한 비용이 따르고요. 따라서 결론이 나오지 않는 상황에 쫄리지 않고, 이번엔 아쉽게도 결과가 나오지 않았다고 용기있게 말해야겠습니다.
감사합니다.
자료 출처
- 한국, 미국 개발자 임금 : [ITWorld 넘버스] 한국vs미국, 연봉으로 보는 개발자의 가치 (이지현 기자, ITWorld, 2023)
- 2022년 비교 물가 수준 (미국 기준) : 통계청 국가통계포털(KOSIS)
이미지 출처
- 무한도전 정신감정 특집 : 정준하 악플에 어김없이 등장하는 '어? 열받네?' 유래는 '무한도전' 정신감정편 (부산일보, 2017)
- AB테스트 결과 이미지 : A/B Test Calculator - ABTestGuide.com
'분석가의 책장 > 독서기록' 카테고리의 다른 글
[그로스해킹] 다른 관점에서 그로스해킹 책 읽어보기 (2) | 2024.11.10 |
---|---|
[데이터] 불완전한 숫자를 받아들이기 - 새빨간 거짓말, 통계 ③ (1) | 2024.04.21 |
[데이터] 신선한 재료는 맛있는 요리의 핵심 - 새빨간 거짓말, 통계 ① (2) | 2024.04.04 |
[논리] 문제는 어떻게 해결하는가? - HOW TO 맥킨지 문제해결의 기술 (0) | 2024.03.17 |
[데이터] 데이터가 단단히 자리 잡기 위해서는 - 컨버티드 ④ (2) | 2024.01.28 |
댓글