들어가며 : 데이터, 생각 없이 읽으면 '독' 됩니다.
우리는 하루에도 몇 번의 의사결정 과정을 거칩니다. 그 배경에는 '데이터'가 있습니다. 과거 경험이 만들어낸 무의식적인 데이터들(직감, 통찰)도 있고, 관행이라는 사회적 데이터도 있으며, 정말 숫자로 근거를 판단해야 하는 데이터도 있습니다.
'데이터 드리븐(Data driven)'이라는 표현도 어느덧 익숙해진 지금입니다. 숫자를 보고 판단하고 결정을 내리는 일이 전보다는 더 자주 일어납니다. 사실 데이터 그 자체로 신빙성이 있는 것 같기도 해요. 다른 게 아니라 데이터가 이랬다고 하면 '응 그렇지' 하고 납득할 것 같고요. 하지만 생각해 봅시다. '숫자'는 정말 만능일까요? 숫자 만으로 모든 것을 결정할 수 있을까요?'
사실 데이터는 '기록'에 불과합니다. 어어떤 데이터를 어떻게 해석하고 정보로 만드느냐는 의사결정자의 몫입니다. 데이터에 대한 비판적인 시각이 없이 숫자만 보고 모든 것을 판단한다면 잘못된 의사결정에 이를 수도 있습니다. <데이터 분석가의 숫자 유감>은 이럴 때 데이터를 잘 해석할 수 있는 몇 가지 방법을 알려줍니다.
전체 목차
1화. 상관관계와 인과관계 : 광고 덕분에 DAU가 늘었다?
2화. 숫자의 불확실성 : 큰 수를 더 크다고 말하지 못하고
3화. 모수와 표본 : 모수가 이렇게 충분한데 그냥 쓰면 안 될까?
4화. 확률과 분포 : 그때는 맞고 지금은 틀린가?
5화. 실험을 통한 의사 결정 : 실험의, 실험에 의한, 실험을 위한
6화. 그래프 읽기 : 백문이 불여일견이라는 거짓말
7화. 추세선 그리기 : 엑셀이 이르시되 추세선이 있으라
8화. 시계열 데이터 : 나는 내일, 어제의 데이터와 만난다
9화. 별점의 함정 : 나의 3점과 당신의 3점은 다르다
10화. 인구통계학 정보의 효용성 : 이 광고는 30대의 여성을 대상으로 타기팅 했습니다?
11화. 조건부 확률 : 그 식당이 맛집일 확률을 찾아서
12화. 범위 제한을 통한 정확도 향상 : 늘 옳은 말만 하는 법
13화. 평균이란 무엇인가? : 평균 연봉의 함정
14화. 데이터 문해력 : 데이터로 읽고 쓰기
주요 내용
1) 인과관계에 대한 오해 금지!
이 내용은 ⌜데이터 분석의 힘⌟ 에서도 반복해서 언급됐던 내용입니다. 얼마나 중요하면 이렇게 자주 나올까요..! 그만큼 사람들이 많이 실수하는 문제이도 합니다.
인과 관계를 밝히는 건 데이터 분석의 중요한 목표입니다. 인과 관계 속 원인 변수를 바꾸면 결과가 바뀌고, 결과 지표가 달라지면 최종 지표까지 영향을 받죠. 하지만 인과 관계를 밝히는 건 쉽지 않습니다. 그 관계가 명확해야 하기 때문인데, 우리는 '빨리' 의사결정을 하기 위해 상관 관계를 인과 관계로 곡해하기도 합니다.
'상관 관계'와 '인과 관계'의 차이를 명확히 인지하고, 인과관계에 다양한 변수가 있다는 점을 고려해야 합니다.
2) 숫자가 높으면 무조건 선택해야 할까?
최근 A/B 테스트는 프로덕트와 떼려야 뗄 수 없는 존재입니다. 많은 기업들이 A/B 테스트를 통해 의사결정의 근거를 마련합니다. 그런데 과연 A/B 테스트는 항상 옳은 것일까요?
A/B 테스트를 했습니다. A안과 B안 사이에 통계적으로 차이가 있다는 것을 확인했죠 (p-value 유의 수준보다 낮으면 통계적으로 의미가 있다고 말합니다). 결과를 보니 A안의 테스트 결과가 높았습니다. 그런데 실제로는 B안이 더 나을 가능성이 있을까요? 답은 '있다' 입니다. 이유는 A/B 테스트도 결국은 확률 게임이기 때문입니다. 확률은 '가능성'을 말해요. 그럴 수도 있는 거지 반드시 그런 일이 일어난다고 보장할 순 없습니다. 예를 들어 볼까요? 주사위 숫자 5가 나올 확률은 1/6입니다. 주사위를 던지는데, 계속 숫자 5가 나오지 않습니다. 이렇게 다섯 번을 던졌죠. 그럼 여섯 번째는 5가 나올까요? 여전히 1/6의 가능성만 있을 뿐이에요.
따라서 확률이 반드시 일어난다는 생각을 하지 않아야 합니다. 그럴 가능성이 있다는 정도로만 생각하는 것이 좋습니다.
3) 그래프를 비판적으로 봐야 하는 이유
데이터 분석가의 역량 중에 '데이터 시각화(Data visualization)'이 들어갑니다. 시각화는 데이터 의사 결정에 많은 도움을 줍니다. 숫자와 표로만 봤을 때는 차이, 패턴, 추이 같은 정보가 그래프로 볼 때는 눈에 확 들어올 때가 있죠.
하지만 저자는 그래프를 비판적으로 봐야 한다고 말합니다. 이유는 시각화가 정보를 나타내는 데도 탁월하지만 조작도 쉽기 때문이에요. 예를 들어 x축, y축을 잘못 설정하는 것은 아주 기본적인 조작 중 하나입니다.
출처 : 나무위키
따라서 어떤 시각화 자료가 있을 때는 꼼꼼하게 살펴 보는 것이 좋습니다. 그래프에 묻어난 작성자의 '의도'를 덜어내고 객관적으로 봐야 합니다. 시각화 자료를 숫자나 표로 다시 구성해보는 것도 좋습니다. 숫자로 정확하게 계산해보는 거죠. 숫자 정제가 끝나면 결과를 다시 내서 비교해볼 수 있습니다. 시각화가 왜곡되지는 않았는지 빠진 데이터는 없는지 파악합니다.
4) 시간이 답을 알려주기도 한다.
데이터는 시간과 사건을 하나하나 기록에 쌓아줍니다. 덕분애 패턴이나 추이를 파악할 수 있습니다. 우선 시간의 주기, 계절성 등 패턴이 있는 데이터들이 있습니다. 두어 개 정도 예를 들어 볼까요? 축구 국대 경기는 월드컵 시즌에 시청률이 가장 높습니다. 오전 7시에서 9시에는 지하철 이용 인원이 가장 많죠. 새해 초기에는 자기계발과 운동 관련 상품들이 불티나게 팔립니다.
패턴도 있지만 전체적인 방향을 알려주기도 합니다. 이걸 추이라고 하는데요. 좁게 보면 증감을 반복할 수 있지만, 크게 보면 추세를 확인할 수 있습니다.
5) 사람마다 평점의 기준이 다르다 : 평점 왜곡 조심하기
평점은 '점수'입니다. 그렇다면 숫자가 붙는 것은 모두 믿을 만 할까요?
주의해야 하는 점은 평점에 '사람의 주관적 판단 기준'이 반영된다는 점입니다.
예를 들어 (평점을 짜게 주기로 유명한) P 평론가가 영화 평점을 주는 기준과 일반인 A가 똑같은 별 4개를 줬다고 합시다. 하지만 그 의미와 배경은 각각 다릅니다. 이렇게 개인의 생각과 주관을 점수화하기 어렵기 때문에, 정성 결과만을 보고 결과를 좁게 해석하면 안 됩니다.
업무를 할 때도 마찬가지입니다. NPS 스코어처럼 사용자가 매겨준 점수는 물론 중요합니다. 사용자가 느낀 주관적 태도를 보여주니까요. 대신 사용자의 행동 데이터를 더 면밀히 살펴볼 필요가 있습니다. 예를 들어 서비스의 만족도가 높다면 사용자는 재방문하고, 유료 결제 가능성이 높을 겁니다. 주관적 태도는 왜곡될 수 있음을 꼭 기억해야겠습니다.
6) 데이터에는 맥락이 있다.
'이 집이 맛집일 확률'
'백종원 선생님이 맛집이라고 말한 곳이 실제 맛집일 확률'
'뭐든 잘먹는 내 친구 A가 맛집이라고 말한 곳이 실제 맛집일 확률'
둘의 확률은 확실히 다릅니다. 맥락이 다르기 때문이다. 하나는 맛전문가 백종원 선생님이 추천한 음식점이고, 다른 하나는 그냥 먹는 친구가 추천한 음식점이에요. 이렇게 어떤 배경과 상황이 있을 때 어떤 사건이 실제로 일어날 확률을 조건부 확률이라고 합니다.
이런 배경을 무시하고 '이 집이 맛집일 확률'만 본다면 어떨까요? 숫자만 본다면 데이터로 잘못된 결정을 내릴 수 있습니다. 따라서 데이터 뒤에 어떤 일들이 있는지 맥락을 확인할 필요가 있어요.
마치며
데이터는 양날의 검입니다. 잘 쓰면 기업의 방향을 바꿀 약이 되기도 하지만, 잘못 쓰면 완전 다른 결과를 낳을 수있습니다. 데이터를 잘못 사용하지 않으려면 데이터가 모든 것의 답이 될 수 있다는 생각부터 버려야 한다는 점을 배울 수 있었습니다. 저자의 말처럼 내가 접하고 있는 데이터가 올바른 출처와 목적을 가지고 있는지, 데이터나 논리에서 왜곡된 부분은 없는지 비판적으로 판단해야겠다는 생각이 듭니다.
감사합니다.
출처
1. [도서] 데이터 분석가의 숫자 유감 - 권정민 (2021)
2. [도서] 월스트리트저널 인포그래픽 가이드 - 도나.M.웡 (2014)
3. [웹페이지] 그래프의 왜곡 - 나무위키
https://namu.wiki/w/%EA%B7%B8%EB%9E%98%ED%94%84%20%EC%99%9C%EA%B3%A1
4. [블로그] 데이터 시각화 차트 디자인에 필요한 사례와 종류 알아보기 - 모두의 연구소
https://modulabs.co.kr/blog/data-visualization/
5. [웹페이지] 수도권 지하철 시간대별 승객수 통계 (2022) - 인스파일러
https://insfiler.com/detail/rt_subway_time-0003
6. [기사]토스증권 3분기 영업익 22억…출범 후 첫 흑자 달성 - 뉴스 저널리즘
https://www.ngetnews.com/news/articleView.html?idxno=412530
7.[게시판] 씨네21의 "박쥐"와 "악마를 보았다" 특이한 평점 - 익스트림 무비 (게시판글)
https://extmovie.com/movietalk/18816968
'분석가의 책장 > 독서기록' 카테고리의 다른 글
[자기계발] 강점은 기회를 만든다 - 피터드러커의 자기경영노트 ④ (3) | 2023.11.30 |
---|---|
[자기계발] '공헌'이라는 북극성을 만들자 - 피터드러커의 자기경영노트 ③ (0) | 2023.11.08 |
[자기계발] 경영자는 '시간'도 '관리'한다 - 피터드러커의 자기경영노트 ② (1) | 2023.11.01 |
[자기계발] 지식근로자의 마인드셋이란 - 피터드러커의 자기경영노트 (0) | 2023.10.24 |
[데이터] 데이터 분석의 힘 (2) | 2023.02.19 |
댓글