統計學, statistics
- 본문
- 통계의 함정
2.1. 너무 작은 표본에 기초한 결론
2.2. 작위적인 표본을 통해 내린 결론
2.3. 매우 큰 표본에서 나타난 소수의 사례를 과대평가
2.4. 잘못된 조사 방법
2.5. 잘못된 인과관계 추론
2.6. 집단의 특성을 개인에게 적용
2.7. 의도치 않은 편향
2.8. 통계적으로 의미 있는 모든 분석에 현실적인 의미 부여
세상에는 3가지 거짓말이 있다.
그럴 듯한 거짓말, 새빨간 거짓말, 그리고 통계이다.(Lies, damned lies, and statistics)
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=1)]
여러 현상(자연 현상이나 사회 현상)으로 인해 얻어진 다양한 자료들에 대해 분석하고 연구하는 학문이다. 학문 특성상
확률과 부딪힐 일이 많다 보니 보통은 확률론과도 같이 엮인다.[1]
태생적으로 수학과는 불가분의 관계일 수 밖에 없는 학문으로, 통계를 공부하려면 어느 정도의 수학을 반드시 알아야 한다. 이 때문에 수학의 한 분야로 취급되기도 하나, 통계학의 경우 이론 못지않게 그에 대한 응용이 중요하다.(즉 두 학문의 지향점이 약간 다르다.) 수리적인 견지에서 통계학을 연구하는 수리통계학은 확률분포의 성질, 통계량의 충분성(sufficient statistics), 통계검정의 효용성(most powerful test) 등에 대한 증명, 확률과정(stochastic process)의 수리적 성질에 초점을 맞추는 반면, 통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석결과의 해석 등에 방점이 놓여있다.
현대에 이르러서는 안 그래도 자료가 방대하게 쏟아져 나오는데 다양(하면서 난해하기까지)한 통계 분석 방법들이 많이 알려져 이를 실제로 적용하는 데에는 컴퓨터를 이용해야 하는게 일반적인 경우가 되어 버렸다. 덕분에 통계를 전공하는 학생들은 공대생들과 마찬가지로 프로그래밍에 익숙해져야 한다. 일반적으로 많이 쓰는 프로그램으로는 SAS, R, SPSS, STATA, Eviews, MATLAB 등이 있으며, 사용자의 목적에 따라 주로 사용되는 프로그램이 달라지게 된다. 예를 들어 공대는 MATLAB 계열을 많이 사용하고, 사회과학 계열에서는 SAS나 STATA를 사용한다. 그러나 통계분석을 빈번하게 할 경우에는 여러개의 프로그램을 사용할 줄 아는게 도움이 된다.
통계학은 공학이나 자연과학뿐 아니라 사회과학, 최근에는 인문학에서도 사용되는 계량적 연구기법이며 심지어는 스포츠 경기 분석(예컨대 세이버메트릭스)등 꽤 넓은 범위에서 사용된다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=2)]
많은 사람들이 통계의 함정에 빠져 잘못된 판단을 내린다. 또 통계를 멋대로 이용해 억지 주장을 펴는 경우도 많다. [2]
다음은 대표적인
통계의 논리적 함정이다.[3]
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=3)]
아무도 빠지지 않을 것 같지만 실제로는 가장 많은 사람이 빠지는 통계의 함정이다. 어렸을 때 우유를 마시면 키가 큰다는 주장에 대해 "나는 우유 매일 마시고도 키가 작아. 그거 거짓말이야."와 같은 소리를 하는 사람이 있다. 실제로 우유와 키가 별 상관이 없다는 연구 결과가 많지만, 진위 여부와는 무관하게 본인의 경우만으로는 이를 판단할 수 없다. 이 말은 자기가 우유를 마시지 않았더라면 지금보다 키가 작을 수 있었다는 반론에 반박할 수 없기 때문이다.실제로 전체의 10~20%이상은 표본으로 잡아둬야 함정이 될 가능성이 줄어든다고 한다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=4)]
"개그맨들은 아내가 다 미인이다. 김대희, 김준호, 정종철, 김학도 등을 보라"와 같은 주장을 자주 들을 수 있는데 이는 작위적인 표본에 의한 착각일 수 있다. 개그맨의 아내가 실제로 대부분 미인인지를 판단하려면 임의의 방법으로 공정하게 표본을 뽑아 확인해봐야 한다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=5)]
표본의 크기가 매우 큰 경우 특이한 사례도 있기 마련이다. 로또 1등이 그렇다. 로또 1등에 당첨될 확률은 매우 작지만, 매주 당첨자가 나온다. 이는 수많은 사람들이 로또를 사기 때문이다. 하지만 이와 같은 현상을 잘못 해석하여 일반화하는 경우가 꽤나 많다. "내가 월드컵 축구 보기만 하면 우리나라가 져"와 같은 주장을 하는 사람이 이런 경우이다. 월드컵 경기의 경우 수백 만 명이 넘는 사람이 경기를 보고 그 중에는 자기가 볼 때마다 우리나라가 이기거나 지는 사람이 있을 것이다. 이는 결코 이상하지 않다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=6)]
서울역에서 지나가는 사람들에게 "여기 음란물 보는 사람 있어요?"라고 크게 외칠 때, "네"하고 대답하는 사람은 백 명 중에 한 명도 되지 않을 것이다. 하지만 그렇다고 해서 음란물을 보는 사람은 1%도 되지 않는다고 판단할 수는 없다. 조사 방법이 잘못되었기 때문이다. 일반적으로 다른 사람들에게 말하기 영 좋지않은 내용을 조사할때는 얼굴을 보면서 하는 조사는 피하는게 좋다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=7)]
상관관계는 인과관계와 무관할 수 있다. 담배를 피우는 사람은 분명 담배를 피우지 않는 사람에 비해 폐암에 걸릴 확률이 높다. 하지만 이것만으로는 담배가 폐암의 원인이라고 할 수 없다. 상관관계는 인과관계를 알려주지 않기 때문이다. 단초를 제공할 뿐이다. 담배가 폐암의 원인인지를 알고 싶다면 의학적인 연구가 필요하다.
사실 이것보다 더 뚜렷한 예시는 날아다니는 스파게티 괴물교
의 지구온난화의 원인이 시간에 따른 해적 수 감소에 의한 것이라는 해석이 있다.물론 이건 개드립
[4]
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=8)]
네덜란드 남자의 평균키는 180cm가 넘는다. 대한민국 남자의 평균키는 173cm 정도이다. 하지만 한국 남자 중에서도 분명 네덜란드 남자보다 키가 큰 사람이 있다. 남녀의 경우에도 마찬가지다. 일반적인 남자는 여자보다 운동 능력이 뛰어나지만, 남자를 1:1로 싸워서 제압할 수 있는 여자도 있다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=9)]
1990년대까지만 해도 심장마비는
여성보다 남성에게 더 쉽게 발생한다는
것이 정설이었으나, 2004년에 발표된 연구에 따르면 이는 남성의 심장병 증상이 더 뚜렷하여 의사가 더 일찍 발견하기 때문에 빚어진
오해였다. 심장병은 오히려 25세 이상 여성의 사망 원인 중 첫 번째이다.[5]
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=10)]
통계적으로는 의미 있는 결과라 하더라도 현실적으로는 별 의미가 없을 수도 있다. 한 연구에 따르면
오스트리아에서 군대에 지원한 50만 명을
조사한 결과, 봄에 태어난 사람이 가을에 태어난 사람보다 키가 0.6cm 큰 것으로 나타났다.[6]
하지만 키 0.6cm를 위해 출산
시기를 조정할 부모는 거의 없을 것이다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=11)]
심지어 대학에서도 학교에 따라 통계학과의 소속이 다른데, 어떤 곳에서는 이과계열에 속해 있고 어떤 곳에서는 문과계열에 속해 있다. 이과계열에 속해있는 경우는 보통 수학과와 붙어 있으며, 문과계열에 속해있는 경우에는 경제학과와 붙어 있다. 전자의 경우가 서울대, 서울시립대 후자의 경우가 연세대, 고려대, 성균관대, 중앙대. 이 경우 통계학과에 계시는 교수님의 전공분야가 서로 달라진다. 이과 계열에 속해있다면 수리통계, 확률론 등 통계이론을 전공한 교수가 있을 확률이 높고, 문과 계열에 속해있다면 시계열, 통계 예측, 계량사회과학 이론 등 응용통계학을 전공한 교수가 있을 확률이 높다.
통계학과 이외에도 연구 과정에서 통계학이 필요한 학문 분과에서는 해당 학문의 계량적 연구방법론을 전공한 교수/강사가 수업을 제공한다. 일반적으로 공대, 자연대, 사회대 학과 대부분에서는 학부와 대학원 과정을 막론하고 거의 모든 전공에서 통계학 수업이 열린다. 대학원 과정까지 통계학 수업이 제공되지 않는 전공은 인간의 삶과 사고에 대해 사변적으로 접근하는 학문인 인문학 정도이다. 그나마 최근에는 철학, 역사학, 언어학, 문체론의 연구에서도 통계학이 중요하게 사용되기 시작하고 있다.
어렵다는 인식이 붙어 있는데, 물론 어렵다는 말은 사실이지만 잘만 배워두면 여러모로 유용한 학문이다. 특히 적절한 상황에 통계 분석 자료를
이용하면 자신의 주장에 대한 신뢰성이 높아진다. 당장, 썰만 푸는 것과 숫자를 들이대며 증거를 내세우는
거랑 같은 말을 하더라도 어떤 게 신뢰가 갈까?썰푸는거
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=12)]
학부 과정에서는 기초적 통계 이론, 기초 확률론, 표본론, 회귀분석 과 그 응용(시계열 분석 등), 기타 비모수적 통계이론이나
베이지언[7]
통계이론 등을 배우며, 이를 위해서는
선형대수학과
해석학[8]
역시 잘 알고 있어야 한다.
또한, 대학원에 진학하여 논문을 쓰고자 하는 경우, 실험분석이나 자료해석이 필요한 연구분야의 경우 대부분의 논문이 통계 분석을 거쳐 논문의
결론을 제시하게 된다. 따라서 대학원 진학시에는 기본적인 테이블 결과 해석 정도는 할 줄 알아야 하며, 최소한 기초통계학과
회귀분석에 대한 지식을 마련하는 것이 연구에 직/간접적인
도움이 될 것이다. 또한 자기 연구에 통계를 직접 써먹고 싶다면 SPSS, SAS, Stata, R, Matlab 등 통계분석 프로그램을
다루는 법도 배울 필요가 있다. 변수가 매우 적다면 엑셀로도 버텨볼 만하지만 최소
독립변수가 대여섯 개인 다중회귀분석만 들어가도 엑셀로는 답이 없다. 엑셀 함수(trend, slope, linest 등) 및
데이터분석 메뉴에서 다중회귀분석을 지원한다.
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=13)]
통계학은 정수론,
해석학,
미적분학 등 다른 수학 분야에 비해, 공식만 외우고 주어진
값을 대입하면 문제가 풀리는 경우가 많다. 그래서 그냥 공식만 외우고 마는 사람이 많은데 이럴 경우 통계학을 배우는 의미 자체가 상당히
퇴색된다. 어차피 실무에서 계산은 컴퓨터가 해주기 때문. 공식을 외우는 것이 아니라 어떠한 통계적 추론이 어떤 근거와 가정 하에 이루어지고,
어느 정도 신뢰해도 되는가 등의 원리를 파악해야 한다. 입문 과정을 가르친 것만으로 높은 수학적 사고력을 요구하는 문제가 출제 가능한 다른
분야에 비해, 통계학은 한두 학기 가르친 것만으로는 높은 수준의 문제를 내는 것이 어려운 편이다. 따라서 개념을 확실히 이해하고 있는지를
확인하기 위해 아주 자세한 서술을 요구하거나, 무늬만 통계학 문제이고 실제로 다른 분야를 응용하게 하는 문제를 출제한다..[9]
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=14)]
-
데이터마이닝
-
다변량자료분석
-
범주형자료분석
-
비모수통계학
-
생존자료분석
-
수리통계학
확률변수의 분포, 조건부 확률과 독립성, 몇 가지의 특수한 분포(정규분포, 이항분포, 다항분포, 감마분포, 카이제곱분포, 포아송 분포, 다변량 정규분포), 확률변수의 함수 분포, 중심극한정리를 포함한 극한분포, 추정, 통계적 가설과 검정, 비모수적인 방법을 이용한 검정과 각종 통계량 등을 배운다.[10]
요약하면 통계학의 기초개념을 포괄적으로 다루는 분야. -
시계열자료분석
-
실험계획법
-
통계계산
-
확률론
-
확률과정론
-
회귀분석
-
베이즈 통계학
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=15)]
- 항목 참조: 통계 관련 정보
[[edit](http://rigvedawiki.net/r1/wiki.php/%ED%86%B5%EA%B3%84%ED%95%99?action= edit§ion=16)]
\----
[1]
다만 확률론의 경우 다른 통계 분야보다 순수수학적인 면이 많다.[2]
특히 OECD 통계[3]
물론 논리적으로 올바른 통계적 추론의 경우에도 결과를 왜곡할 수 있는 편법은 얼마든지 있다. 통계 관련 종사자들 사이에서는 '원하는 결과는 그 어떤 결과라도 만들 수 있다.'는 것이 공공연한 비밀이다.[4]
물론 많은 의학 연구가 담배는 폐암의 원인이라고 주장하고 있다. 물론 담배 회사들은돈줄을 위해서상반되는 주장을 펼치고 있다.[5]
Lori Mosca et al., "Evidence-based Guidelines for Cardio-vascular Disease Prevention in Women", American Heart Association, February 2004[6]
J. Utts, vol. 57, no. 2, May 2003[7]
유명한 통계학자 토머스 베이스의 이름을 땀.[8]
만약 대학원에 생각이 있다면 실해석학까지 공부해 두는 것이 좋다.[9]
1번 항목의 확률과의 차이이다. 추가로, 다른 학문이라 하여 공식만 외우면 장땡인 경우는 없다...[10]
서울대학교 통계학과 홈페이지