글 정보
- 이 글의 개요소개 : 이 글은 <새빨간 거짓말, 통계>의 PART9-10 리뷰 글입니다.
- 예상 독자 : 데이터를 분석하고 싶은데, 숫자를 어떻게 봐야하는지 어려워하시는 분들에게 적합해요.
- 글의 목표 : 책의 내용과 느낀점을 전달하고 싶어요.
- 알면 좋은 개념 : 필요한 사전 지식은 없습니다.
들어가며
이번 포스트에서는 <새빨간 거짓말, 통계>의 마지막 파트인 9, 10장을 이야기합니다. 지난 2주에 걸쳐 데이터 분석이 '요리'의 과정이고, '재료'와 '요리 방식'에 따라 전혀 다른 음식과 퀄리티가 나올 수 있다는 것을 말씀드렸습니다. 재료를 쓸 때와 조리를 할 때 마구니가 씐다면 우리는 진짜 필요한 '진실'에 다가설 수 없을 거라는 것을요!
이번 파트 9, 10장은 그동안의 책 내용을 요약하고 마무리하기에 딱 좋은 파트였어요. 9장에서는 통계가 어떻게 조작될 수 있는지 요약했고, 10장에서는 우리가 어떻게 바른 눈으로 정보를 보는지 알려줍니다. 여기에 저는 저의 소회까지 살짝 얹어보려고 합니다. 책을 읽으며 배운 내용을 함께 정리해 보시죠!
목차
-- 1주차 --
PART 1. 언제나 의심스러운 여론조사 (표본 추출과 데이터 오류)
PART 2. 평균은 하나가 아니다 (대푯값)
PART 3. 작은 숫자를 생략하여 사기 치는 법 (표본의 크기)
-- 2주차 --
PART 4. 쓸데없는 숫자로 벌어지는 헛소동 (표본오차)
PART 5. 사람 눈을 속이는 그래프 (시각화)
PART 6. 백문이 불여일견이라고? 천만에 (시각화)
PART 7. 아전인수를 위한 마구잡이 통계 (지표)
PART 8. 통계도 논리다 (인과관계 - 상관관계)
-- 3주차 --
PART 9. 통계를 조작하는 법
PART 10. 통계의 속임수를 피하는 다섯 가지 열쇠 (숫자 제대로 읽기)
* (괄호)는 파트 별 관련 개념을 넣어둔 것입니다.
책의 내용
9장 : 우리는 의도했든 아니든 어떤 숫자라도 만들어낼 수 있다.
- 숫자가 위험한 이유는 어떻게든 만들 수 있기 때문입니다.
같은 상황도 누가 어떻게 보느냐에 따라 전혀 다른 숫자, 다른 해석이 나옵니다. - '통계조작'이란 통계자료를 사용해 사람들에게 잘못된 정보를 제공하는 것입니다.
- 우리는 '고의 또는 과실'로 숫자를 '정의/가정/추출/계산/표현/해석'하는 과정에서 '왜곡/과장/생략/임의선택/비약'할 수 있습니다.
10장 : 타당성을 검증해 줄 다섯 가지 열쇠.
- 따라서 숫자를 '신뢰하지 말고' 타당성을 검증해봐야 합니다.
- 첫째, 출처를 캐봅니다 : 누가, 어떤 목적으로, 누구를 위해 이 숫자를 만들었을지 생각해 봅니다.
- 둘째, 조사 방법을 파헤칩니다 : 어디서 나온 데이터인지, 어떤 방식으로 추출된 데이터인지 확인합니다.
- 셋째, 빠진 데이터가 없는지 확인합니다 : 이 숫자만으로 설명이 될까요? 정보를 정확하게 알기 위해 어떤 맥락 데이터가 추가로 필요할지 생각해봅니다.
- 넷째, 쟁점 바꿔치기를 의심합니다 : 논리적 비약이나 함정은 없는지 확인합니다. 엉뚱한 데이터로 결론을 내고 있지 않은지, 계산 방식은 올바른지. 전후관계를 인과관계로 비약하고 있는 건 아닌지 등을 확인합니다.
- 다섯째, 상식을 생각합니다 : 주장이 상식적으로 말이 되는지, 그럴듯한 숫자로 현혹하고 있는지 생각해봐야 합니다. 특히 '추정'의 경우 우 전제가 현실적인가 의심합니다.
적용해 볼 점
그동안 책에서 배운 내용을 돌아보았습니다. 데이터의 이용자이자 정보의 생산자로서, 신중한 판단과 정확한 정보 제공 책임이 있다고 생각했습니다. 데이터 마구니가 씌지 않으려면 어떻게 해야 할지, 세 가지 적용점을 정리해 봤어요.
중립 기어를 놓자.
가장 중요한 것은 전체적인 관점에서 중립 마인드를 가지는 것이라고 생각합니다. 다행히도! 데이터 분석가의 존재 이유는 '제품의 성장'과 '비즈니스 성장'에 있습니다. 따라서 왜곡된 정보를 전달할 필요가 없습니다. 어떤 결론이든 제품과 비즈니스 성장에 도움이 되기 때문입니다. 지표가 잘 나오지 않으면 원인을 분석하여 해결 방안을 생각하면 됩니다. 잘 나오면 이 임팩트를 확대할지 고민하면 됩니다. 또 결과가 나오지 않는다면 나오지 않는 대로 의미가 있을 것입니다.
지난주 포스팅처럼 우리가 만든 (부분) 정책이 잘 됐으면 하는 바람이 (전체) 결과를 왜곡하는 방향으로 가지 않게 중립 기어를 놓아야겠습니다. 어떤 정보든 어떤 결과든 우리 팀 전체에 도움이 된다는 생각을 가지겠습니다.
분명한 정의로 오해의 소지를 줄이자.
데이터 부트캠프 학생 때, 선배 분석가들의 조언 중 '제발 정의를 잘해라'는 말씀이 기억에 남습니다. 그땐 이게 왜 이렇게 중요할까 싶었는데요. 실제로 정의 하나 삐끗하면 엄청난 나비효과가 나타난다는 것을 배웠어요. 예를 들어 지표 정의를 잘못하면 사용하는 테이블(출처)이 달라지고, 집계 방식이 달라지며, 해석이 멋대로 되어버릴 수 있습니다. 그 결과 '상상도 못한 정체'가 나타나버리게 되었던 거죠.
따라서 '정의'가 모든 것의 시작이라고 생각해야곘습니다. 이렇게 접근해 보려고 해요.
- 문제 정의 : 어떤 문제에 쓰려는가?
- 사용자 : 누가 쓸 건가?
- 사용 목적 : 데이터가 어떻게 쓰일 수 있을까? 어떤 판단에 쓸 것인가?
- 데이터 : 어떤 데이터를 사용할 것인가? 왜 이 데이터가 필요한가?
- 출처 : 내부 데이터라면 어떤 테이블의 컬럼을 사용할 것인가? 외부 데이터라면 출처는 어디서 가져올 건가?
- 계산식 : 어떻게 계산할 건가? 정확한 계산식(집계 기준)은 무엇이고 왜 이렇게 계산하려는가?
- 단위 : 어떤 단위로 표현할 것인가?
- 보조지표 : 검증을 위해 함께 보면 좋은 지표들은 어떤 게 있는가?
- 유의점 : 이 데이터를 사용할 때 주의할 점은 무엇인가? 해석에 유의해야 하는 부분은 없을까?
스스로 의심하고 확인하자.
마지막으로 저는 이 데이터의 '생산자'인 동시에 '이용자'이기도 합니다. 분석할 때는 결과를 이용해 '결론'을 도출하고 '제안'을 하기도 하는데요. 이때 스스로 의심하고 데이터를 확인하는 습관을 가져야겠다고 생각했습니다. 딱 반발짝만 떨어져서 객관적으로 상황을 보고, 동료에게 상호 검증하며 타당성을 높여보겠습니다.
- 결과 - 결론 사이의 논리적 비약은 없을까?
- 계산 과정에서 오류가 있지는 않았을까?
- 추정이나 예측 시, 현실적인 가정을 사용했는가?
- 용어(지표)를 잘못 사용한 것은 아닐까?
- 결과와 결론 사이의 근거에 잘못된 용어가 들어가 있는 건 아닐까?
- 문제와 무관한 용어를 사용한 것은 아닌가?
- 용어를 혼동한 것은 아닌가? - 맥락을 고려하여 내린 결론인가?
- 너무 확신하는 것은 아닐까? 위험에 대해서 설명했는가?
마치며
드디어 이번주를 끝으로 데벨챌 3기가 종료되었네요. 오랜만에 데이터 리터러시 관련 책을 읽어서 즐거웠어요. 책을 읽는 동안 데이터가 어떻게 사람의 눈을 흐릴 수 있는지 다양한(?) 예시를 통해 확인했습니다. 또한 데이터를 보는 사람으로서 주의해야 할 점도 있지만, 정보를 만드는 사람의 입장에서도 다시 한번 책임을 느끼는 계기가 되었어요. 책은 쉽게 써졌지만 정말 쉽게 읽히지 않았습니다.
저는 책을 읽으며 '데이터도 완전하지 않다'는 것을 다시금 깨달았습니다. 이전에는 숫자가 객관적이고 명확할 것이라고 기대했어요(망상에 가깝죠..? 🙊). 그래서 스트레스를 받는 일도 많았습니다. 하지만 데이터의 불확실성을 이해하면서 마음을 다르게 가져볼 수 있었습니다. 숫자라는 건 정말 쉽게 변질될 수 있고, 위험하다는 것을 받아들이게 되었어요. 이들을 최대한 옳게 쓸 수 있게 고민하고, 안전하게 전달할 수 있게 노력하겠습니다.
감사합니다.
이미지 출처
강형욱 님 이미지 - 위키트리
신봉선 님 이미지 - 나무위키
궁예 선생님 이미지 - 머니투데이 기사
'분석가의 책장 > 독서기록' 카테고리의 다른 글
[그로스해킹] 그로스해킹에서 '정의'와 '합의'는 중요하다 (15) | 2024.11.18 |
---|---|
[그로스해킹] 다른 관점에서 그로스해킹 책 읽어보기 (2) | 2024.11.10 |
[데이터] 같은 재료 다른 해석 비틀린 결과 - 새빨간 거짓말, 통계 ② (0) | 2024.04.15 |
[데이터] 신선한 재료는 맛있는 요리의 핵심 - 새빨간 거짓말, 통계 ① (2) | 2024.04.04 |
[논리] 문제는 어떻게 해결하는가? - HOW TO 맥킨지 문제해결의 기술 (0) | 2024.03.17 |
댓글