<데이터 분석가의 숫자 유감>을 다 읽었다. 전에 리디셀렉트 아티클에서 연재하는 걸 보긴 했다. 그때는 연재이다 보니, 감질나게 한편씩 올라와서 몰아서 봐야지 했던 기억이 난다. 나중에 봐야지 했을 땐 리디셀렉트에 아티클 기능이 사라진 뒤였다. 찾아보니 책으로 나와 있었다. 하지만 그 이후로도 한참 후에서야 책을 읽기 시작했다.
늦게 읽기 시작한 이유는 마케터에게만 도움이 되는 데이터 책이 아닐까? 프로덕트 디자이너인 나에게도 도움이 될까?라는 생각이 들면서 구매를 미뤘기 때문이다. 그런 걸 따질 때가 아니라는 상황 판단 이후, 이 책을 다시 찾았다. 아무리 기다려도 특정 직군을 위한 쉬운 데이터 책은 나오지 않을뿐더러, 그냥 데이터를 쉽게 알려주는 책 자체가 귀한 상황이란 걸 깨달았다. 그래서 뒤늦게 이 책을 사서 읽기 시작했다.
읽으면서는 왜 이제서야 읽었지, 빨리 읽을걸! 이란 생각이 들었다. 데이터에 ㄷ자도 모르는 사람도 만화로 먼저 가볍게 내용을 흡수할 수 있고, 이후 만화에서 다룬 개념을 쉽고 깔끔하게 설명한 글이 연이어 나온다. 만화로 한 챕터가 시작되다 보니 부담 없이 책을 읽을 수 있었다. 또 만화가 데이터 관련 개념만 다루는 게 아니라 회사 생활을 둘러싼 스토리에 유머도 있어서 재밌게 읽을 수 있었다.
인과관계 vs 상관관계
당장은 활용할 수 있는 게 없더라도, 데이터에 대한 기초 지식을 쌓을 수 있었다. 1화에서 다루는 인과관계와 상관관계는 제대로 두 개념의 차이를 알지 못하고 데이터를 분석해왔다면 충분히 오용할 수 있었겠다는 생각이 들었다. 상관관계만 있는 것을 들떠서 이거 때문에 이게 올랐나 봐! 하면서 인과관계로 착각했던 지난날이 떠올랐다.
표본, 모수, 모집단의 차이
표본, 모수와 모집단의 차이를 명료하게 알려 준 3화도 좋았다. 지금까지 이 세 개의 개념을 제대로 구분하지 않은 채 단어를 잘못 사용해왔다는 걸 깨달을 수 있었다. 모집단은 전체 집단을 의미한다. 하지만 전체 집단은 계속 변화한다. 매일 회원이 접속하는 것도 아니고, 탈퇴하는 사람도 있고, 사용하다가 마는 사람도 있기 마련이기 때문이다. 그래서 모집단을 어느 정도 정의한 후, 모집단에 가까운, 모집단의 랜덤 부분집합인 표본을 정의한다. 모수를 ‘모집단의 수’의 준말로 생각하는 사람도 있는데, 모수는 모집단의 수치적 요약값으로 모평균, 모표준편차 등 모집단의 대푯값이다. 이 값으로 대략 모집단이 이런 형태구나를 알 수 있다.
별점, 인구통계학 정보, 평균
평소에 깊게 생각하지 않았던 별점, 인구통계학 정보, 평균에 대해서도 다시 생각해 보게 되었다. 별점 같은 경우, 1점과 5점 사이의 점수를 매기는데, 이 점수가 같은 점수라고 동일한 마음일 수 없다. 인구 통계학 정보 같은 경우, 중요한 요소라고 생각했는데, 인구 통계학 정보로 편견을 쌓기보다는 실제 고객의 행동 데이터를 보는 게 중요하다는 생각이 들었다. 평균 같은 경우도 평소에 산술 평균만 주로 쓰는데, 이때 분포가 정규 분포로 되어 있어야 의미가 있다. 그래서 평균 같은 대푯값을 볼 때 평균만 보는 게 아니라 중앙값, 최빈값 같은 것도 함께 봐야 한다는 걸 알게 되었다. 대푯값은 어떤 수치의 집합을 대표하는 값을 말한다.
데이터 문해력
이 책을 읽기 전에는 빨리 데이터에 대한 지식을 쌓고, 활용하는 것에 대해서만 고민했다. 읽은 후에는 데이터를 오용하지 않고 쓸모 있게 제대로 쓰는, 데이터 문해력의 중요성에 대해서 깨달을 수 있었다. 그래야 진짜 데이터를 활용하는 효과가 날 것이기 때문이다.
사람들은 숫자에 대해 낭만적 경외감을 가지고 있어, 일단 숫자만 들이대면 더 이상 이를 ‘이해하고 해석하려고’ 하지 않는다. 그렇게 사람들은 통계의 거짓말에 속아 넘어간다.
이 구절을 읽으면서 누군가 숫자만 들이대면 ‘그렇구나’하며 깨갱거리던 내 모습이 떠오른다. 그 데이터의 출처가 어딘지, 몇 명을 조사한 건지 제대로 알려고 한 적이 없다는 걸 깨달았다.
데이터는 과거의 사건들로 현재를 이해하고 미래를 조망하는 데 도움을 주는 ‘도구’다. 이 도구를 사용한 결과물을 볼 때 단순하게 받아들이지 말고 의심해야 한다는 걸 배웠다. 그러려면 더 공부를 해야 한다. 알아야 의심을 할 수 있으니. 공부는 끝이 없다.