통계...잘못 활용하면 전혀 다른 해석
통계적 추론은 많은 경우 정보를 얻는데 매우 편리한 기반을 제공하는 반면 잘못 활용할 경우 실제와 전혀 다른 해석을 낳아서 목적했던 정보를 얻는 것은 요원한 일이 될 수도 있다. 통계적 추론과 관련하여 주의하여 할 내용은 얼마든지 있지만 특히 자료를 해석하는 과정에서 통계적 기법의 기본 원리를 정확히 이해하고 있지 못하다면 해석상의 오류를 범하기 쉽고, 명백하게 오류라고 말할 수는 없더라도 원래 의도했던 바대로 해석하지 못할 가능성은 매우 높다.
1. 자치단체 결정 적절성 통계적으로 판단해보면
예를 들어보자. 65세 이상 노인 인구가 자치단체 내에 10만명 정도 있는 한 지방자치단체에서 노인들의 한 달 평균 용돈이 5만원 미만이면 노인들을 위한 복지 예산을 증액하기로 결정하고, 자치단체 내에 있는 노인들 100명을 무작위 추출하여 한 달 용돈을 조사하였다. 다음은 그 결과다.
조사 대상 65세 이상 노인들의 평균 용돈 : 48,000원
표준편차 : 40,000원
이 자료를 바탕으로 지방자치단체는 자치단체 내의 노인들의 평균 용돈이 5만원 미만인 것으로 판단하고 노인들에 대한 복지 예산을 증액하기로 결정하였다. 그렇다면 이 자료는 얼마나 믿을 만한가? 그리고 지방자치단체의 결정은 적절하다고 할 수 있는가?
지방자치단체의 결정에 대한 적절성은 순수하게 수리적으로만 논할 수 있는 부분은 아니다. 그러나 자료의 신뢰성에 대해서는 통계적 기법을 통해 판단해 볼 수 있고, 역시 이를 통해서 자치단체의 결정의 적절성에 대해 간접적으로 이야기할 수는 있을 것이다.
2. 5만원미만이라고 판단하면 신뢰도는 69%
이 경우 조사 대상 노인들의 평균은 표본평균에 해당하고, 모집단이 정규분포를 따르지 않더라도 모집단의 크기가 충분히 크다면 표본평균은 정규분포를 따르는 확률변수로 볼 수 있고, 표본평균의 평균은 모집단의 평균과 동일하고, 표준편차는 모집단의 표준편차를 표본의 크기의 제곱근으로 나눈 값과 동일하다. 따라서 모집단의 평균을 , 표준편차를 라고 하면, 표본평균 는 을 따른다. 여기서 모집단의 표준편차를 알 수 없으므로 표본의 표준편차로 대체하면 는 을 따르게 된다. 따라서 이라 하면 는 표준정규분포를 따르게 되고, 이므로 가 되고, 이는 자치단체 내의 노인들의 평균용돈을 신뢰도 95%로 추정한다면 4만160원에서 5만5840원 사이에 분포할 것으로 추정할 수 있다는 것을 의미한다.
실제 자치단체 내의 노인들의 한 달 평균 용돈이 5만원 미만으로 결정되는 범위에서 추정했을 경우의 신뢰도는 약 69% 정도밖에 되지 않는다. 이는 이 조사의 결과를 바탕으로 자치단체 내의 노인들의 한 달 평균 용돈은 5만원 미만이라고 단정적으로 이야기한다면 이 말은 대략 69% 정도의 신뢰도를 갖는다는 것을 의미한다. 따라서 이 조사를 통해 지방자치단체에서 노인들의 평균 용돈이 5만원 미만인 것으로 단정적으로 판단하기는 어려울 것으로 보인다. 또한 표준편차가 4만원으로 매우 큰 것은 노인들 간의 용돈의 격차가 크다는 것을 반영하는 것이므로 복지예산을 편성하더라도 용돈이 부족한 노인들에게 적절히 배분될 수 있도록 예산을 집행하는 것이 예산을 편성하는 것만큼이나 또는 그 이상으로 중요하다는 것을 의미한다.
3. 논리적이지 못하면 통계적 오류 지나칠수도
여기서 통계적 해석은 너무도 쉽고도 자연스럽게 오류를 범하기 쉬운 분야이다. 통계적 오류의 아주 큰 특징은 매우 그럴 듯해서 잘 짜인 논리적 사고 체계를 갖고 있지 않다면 그냥 지나치기 쉽다는 것이다. 이러한 통계적 오류를 정확히 짚어내고 올바르게 재해석하기 위해서는 훈련이 필요하다.
자료를 올바르게 해석하는 것이 얼마나 의미 있는 과정인지를 볼 수 있는 하나의 재미있는 사례를 살펴보자. 1898년 미국과 스페인이 쿠바에서 벌인 전쟁에서 미 해군의 전사율은 1000명당 9명이었다. 같은 기간 뉴욕의 사망률은 1000명당 16명이었다. 전쟁터에 나가는 것보다 대도시에서 죽을 확률이 더 높게 나온 것이다. 해군 징병관들은 이를 근거로 해군에 입대하는 것이 뉴욕에 사는 것보다 안전하다고 선전했다. 어째서 그런 일이 벌어진 것일까? 해군은 대부분 육체적으로 건강한 청년들로 구성돼 있는 데 반해 뉴욕 시민 중에는 갓난아기와 노인, 환자 등이 포함돼 있다. 그래서 뉴욕의 사망률이 더 높게 나올 수도 있지만 그것은 의미 있는 수치는 아니다. 굳이 비교하려면 해군 장병들과 같은 연령대의 청년층 사망률을 따졌어야 한다.
4. 자료해석 때 무엇을 주로 고려해야하는지 점검
또 다른 예를 들어 보자. 훈련 중에 강을 걸어서 건너야 하는 병사들이 지도에 표시되어 있는 대로 평균 수심이 1.3m라는 사실만 믿고 도강을 한다면 어떻게 될지 생각해 보자.
평균은 바로 데이터들이 모여 있는 특성을 나타내는 대푯값이다. 그러나 평균은 숫자들이 모여 있는 중심점을 나타내는 유용한 정보이지만 분포 전체의 모양을 보여 주지는 못한다. 때로는 흩어져 있는 정도를 나타내는 산포도가 더 중요한 경우가 많다. 따라서 흩어진 정도를 모르거나 무시한다면 잘못된 판단을 하게 된다. 이 경우도 그러한 경우에 해당될 수 있다. 다행히 강물의 수심이 고르다면 큰 문제가 없을 수도 있지만, 강물의 수심이 고르지 않고, 얕은 곳은 매우 낮고, 깊은 곳은 매우 깊어서 전체적인 평균이 1.3m인 것이라면 강물의 깊은 곳을 지날 때는 병사들이 큰 위험에 처할 수도 있다.
이와 같이 자료를 해석할 때 어떠한 부분들이 주요하게 고려돼야 하고, 놓치지 말아야 하는 것들에는 어떤 것이 있는지 등을 우선 확인하고 점검해 보아야 할 필요성이 있다.
[실전 문제] 이혼율 산정 방식으로는 여러 가지가 있을 수 있겠지만, 그 중 ‘배우자가 있는 사람의 이혼율(有配偶者離婚率)’은 특정 연도 말을 기준으로 혼인 부부의 수를 분모로, 특정 연도 중에 이혼한 부부의 수를 분자로 하여 산정한 수치를 천분율로 나타내는 방식이다. 예를 들면, 2002년 말 현재 혼인한 부부의 수가 1101만1902쌍이고 2002년 중에 이혼한 부부의 수는 14만5300쌍이므로, 2002년 우리 나라의 이혼율은 1.3%라는 것이다. 매년 이혼율의 변화 추이를 비교할 때와 이혼하는 성향에 대해 절대적인 판단을 내릴 때로 나눠 각각 배우자가 있는 사람의 이혼율의 장점과 단점을 설명하여라.
※ 출제 의도 및 key-point
통계 수치에 시간적 요소가 개입하게 되어 변화의 정도나 누적적인 계산으로 변형하게 되면, 함수의 미분과 적분의 개념과 그 맥을 같이 하게 된다. 사회적인 현상에서 이를 이해하고 차이를 지적할 수 있는지를 기본적인 수준에서 확인하고자 했다. 배우자가 있는 사람의 수와 이혼하는 사람의 수를 비교하여 산정하는 방식이 가질 수 있는 오류에 대해서 생각해 본다면 어렵지 않게 해결될 수 있는 문제이다.
/이승종(1318논술연구소 수리논술팀장)
※ 아래 경우에는 고지 없이 삭제하겠습니다.
·음란 및 청소년 유해 정보 ·개인정보 ·명예훼손 소지가 있는 댓글 ·같은(또는 일부만 다르게 쓴) 글 2회 이상의 댓글 · 차별(비하)하는 단어를 사용하거나 내용의 댓글 ·기타 관련 법률 및 법령에 어긋나는 댓글
BEST 댓글
답글과 추천수를 합산하여 자동으로 노출됩니다.