배우기/책리뷰

데벨첼 3기 1주차 | 새빨간 거짓말, 통계 Ch. 1 ~ Ch. 3

수이 Sui 2024. 4. 6. 17:09

인스타그램 피드를 보다가 데이터리안에서 4월에는 누구나 참여할 수 있는 챌린지를 진행한다고 해서 신청하게 되었다.

한국어 전자책이 있으면 한국어로 읽고 싶었는데, 한국어 전자책이 없어서 일본어로 읽는 중.

한국어 타이틀은 「새빨간 거짓말, 통계」로 번역되어 있는데, 일본어 타이틀은 「통계로 거짓말을 하는 법」으로 번역되어 있고, 각 챕터 타이틀도 한국어, 일본어, 영어 전부 달라서 재밌다.

일본어는 원문의 직역에 가까운데 한국어는 조금 의역이 들어가있다.

(나에겐 영어와 일본어 옵션이 있었는데, 일본어 전자책이 저렴해서 일본어 서적을 구매했다가 세로읽기에 고통받고 있다)


Ch.1 언제나 의심스러운 여론조사

대학시절이 생각하는 챕터였다. 대학에서 정치외교학을 공부하며 다양한 여론 조사의 결과를 바탕으로 미국의 정치에 대해 배우거나, 국회의원 선거 기간에 직접 거리로 나가 여론조사를 실시해 본 경험이 있기 때문이다. 챕터 1을 요약하자면, 결국 완벽한 샘플은 없기 때문에 그 점을 염두에 두고 실험이나 조사 결과를 받아들여야 한다는 것이다. 여론조사나 실험을 설계하는 사람도, 실행하는 사람도, 참가하는 사람도 결국 인간이기 때문에 주관이 개입될 수 밖에 없기 때문이다. 특히, 29페이지의 내용 중에서, 질문에 대한 답도 응답자의 지금까지의 수많은 경험 중 하나의 샘플에 지나지 않는다는 내용이 기억에 남는다.

 

 p.21 データが何回も統計的操作で濾過され、小数点のついた平均値に姿を変えることには、その結果は元のデータとは似ても似つかないような確信の香気を身につけ始めるのである。

 p.22 発表された生存者率の増加のほとんど全部が十分に説明できるということである。大事なことは、サンプルが全体を代表するものでなければならないということであり、それはつまり、偏りのもとになるすべてのものを取り除いたサンプルということである。

 p.23 すなわち、偏りの原因を明確にできなくても、どこかにその可能性がある限り、得られた結果はある程度疑わしいと考えた方が良い。その可能性は必ずあるからである。

 p.26 サンプルの基礎には、「ランダム」という性質がなければならない。つまり、サンプルは「母集団」から全く偶然に選ばなれければならない。(母集団とは、統計ではサンプルがその一部である全体をいう)

 p.27 ランダム・サンプルであるかどうかの判定は次のようになされる。「母集団の中のすべての人があるいはものは、等しくサンプルに選ばれるチャンスがあるか?」

 p.27 統計理論が全面的に信頼して使えるのは、正真正銘のランダム・サンプルについてだけだが、それには一つの難点がある。というのは、完全なランダム・サンプルを手に入れるのは非常に困難で、費用がかかるからであって、多くの場合、法外な費用のために論外にされるのである、そこで、世論調査や市場調査のような分野では、大抵はこれにより経済的な代用品が使われていて、層化ランダム・サンプリングと呼ばれている。

 p.28 世論調査というのは、結局は、偏りの原因に対する不断の戦いということになってくる。

 p.28 しかし、こういった調査結果を読む場合には覚えておかなければならないことは、この戦いは絶対勝てないということである。

 p.29 サンプリングには少なくとも3つのレベルがある。キンゼイ博士が母集団から得たサンプル(1番目のレベル)は、ランダム・サンプルからほど遠く、とても全体を代表するようなものではないだろうが、しかし、この分野でそれまでに行われたどれよりも膨大なサンプルなので、必ずしも正確ではないとしても、その数字は暴露的なものであり、同時に重要なものと認めなければならない。

 p.29 覚えておかなければならないことは、どんな質問紙でも、可能な質問の一つのサンプル(2番目のレベル)に過ぎないこと、そして、それに対するご婦人たちの答えは、それぞれの質問についての彼女の態度と経験のうちのこれまた1つのサンプル(3番目のレベル)以上のものでないということである。

 

Ch.2 평균은 하나가 아니다

평균이라는 숫자는, 어떻게 계산된 것인지에 유의하며 해석할 것. 실무에서도 자주 일어나는 일이기 때문에 많은 부분 공감하면서 읽었다. 그리고 이 책에서 언급하는 내용은 아니지만 평균의 평균을 내는 짓은 절대 하지 않도록 주의해야 한다. (이런 일이 일어나는 경우도 있다) 예를 들면, 현재 대형 부동산 회사의 프로젝트에 소속되어 있는데 영업소의 평균임대료로 지점의 평균임대료를 계산하려고 한다던지 ㅎ 

 

 p.37 この場合のトリックは、「平均」とい言葉の意味が、非常にルーズなのを利用して、種類の異なった平均を使い分けたことである。

 p.37 ある数字が平均値であると聞いても、それがどういった種類の平均値ーいわゆる平均値(算術平均)、中央値(中位数)、最頻値(並み数)のうちのどれーであるかがわからなければ、あまり意味がないのだ。

 

Ch.3 작은 숫자를 생략하여 사기 치는 법

숫자를 읽을 때는, 숫자에 의미를 부여하여 주관적인 해석을 하지 말 것. 평균은 말그대로 평균일 뿐 현실을 정확하게 반영하지는 못한다. 평균은 바람직한 것, 정상인 것과 동의어가 아니다. 

 

 p.56 手元の情報源から、その結果の有意度がわかれば、かなり適切な判断が得られるであろう。

 p.56 たいていの場合には、このように5%の有意水準で十分である。しかし、場合によっては1%の有意水準が要求されることがある。

 p.57 「我々は平均的な家族のために平均的な住宅を作っているのです」と立てる方はいうが、実際には平均より家族が多いか少ない家族(多数派)を無視しているのだ

 p.61 正常なことを、望ましい、ことと取り違えることが事態をいっそう悪くしている