본문 바로가기

ADsP(데이터 분석 준전문가)/문제풀이

[3-4. 통계분석] 1~18번 문제풀이

728x90

통계분석 오답노트
1. 임금과 교육수준의 관계를 나타낸 그래프의 설명
- 각 학력 수준에 따라 임금의 분포를 나타낸다
- 학력 수준이 높아질수록 임금은 높아지는 경향이 있다
- 히스토그램의 각 막대의 높이는 빈도를 나타낸다. 임금수준은 x축을 통해서 확인할 수 있다

2. 모집단에서 표본을 추출하는 방법
- 단순랜덤추출법 : 모집단의 모든 개체가 동일한 확률로 표본에 선택되는 방법
- 계통추출법 : 모집단에서 일정한 간격(계통)으로 표본을 추출하는 방법
- 층화추출법 : 모집단을 여러 부분집단(층)으로 나눈 후, 각 층에서 무작위로 표본을 추출하는 방법
- 집락추출법 : 모집단을 서로 겹치지 않는 여러 집단(클러스터)으로 나눈 후, 일부 클러스터를 무작위로 선택

3. 확률이란 "특정사건이 일어날 가능성의 척도"라고 정의, 통계적실험을 실시할 때 나타날 수 있는 모든 결과들의집합을 표본공간이라고 하고,
   사건이란 표본공간의 부분집합을 말한다. 확률 및 확률분포에 대한 설명
- 모든사건의 확률값은 0과1사이에 있다
- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합이다
- 두사건 A,B가 독립이라면 사건B의 확률은 A가 일어난다는 가정하에서의 B의 조건부 확률과 동일하다
- 확률변수X가 구간 또는 구간들의 모임인 숫자 값을 갖는 확률분포함수를 "확률밀도함수 (Probability Density Function, PDF)"라고 합니다.
- 연속형 확률변수는 가능한 값이 실수의 특정구간 전체에 해당하는 확률변수이며 연속형 확률밀도함수를 가진다 
- 이산형 확률변수는 0이 아닌 각각의 가능한 값에 대한 확률을 나타내는 확률변수이며 확률질량함수를 가진다 

4. 자료의 정보를 이용해 집단에 관한 추측,결론을 이끌어내는 과정인 통계적 추론에 대한 설명
- 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 추론하는 것을 추정이라 한다
- 점추정은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것이다
- 통계적 추론은 제한된 표본을 바탕으로 모집단에 대한 일반적인 결론을 유도하려는 시도이므로 본질적으로 불확실성을 수반한다 
- 구간추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것이지만, 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다

5. 모집단내에서 모집단의 특성을 잘 나타낼 수 있는 일부를 추출하여 이들로부터 자료를 수집하고 수집된 자료를 토대로 모집단의 측성을 추정.
   이 때 조사하는 모집단의 일부분을 표본(Sample)이라 한다. 표본조사에 대한 설명
- 표본오차(Sampling error)는 모집단을 대표할 수 있는 표본단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차를 말한다.
- 표본편의(Sampling bias)는 모수를 작게 도는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 말한다
- 표본편의는 확률화(Randomization)에 의해 최소화하거나 없앨 수 있다. 
  확률화란 모집단으로부터 편의되지 않은 표본을 추출하는 절차를의미하며 확률화 절차에 의해 추출된 표본을 확률표본(random Sample)이라 한다
- 비표본오차는 표본오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든오차를 의미하며 조사대상이 증가하면 오차가 커진다

- 표본오차 : 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차
-> 모집단을 대표할 수 있는 표본단위들이 조사대상으로 추출되지 못하면 발생
- 비표본오차 : 표본오차를 제외한 조사의 전체 과정에서 발생할 수 있는 모든 오차
- 표본편의 : 표본추출방법에서 기인하는 오차
-> 표본추출이 의도된 모집단의 일부 구성원이 다른 구성원보다 더 낮거나 더 높은 표본 추출 확률을 갖는 오차

6. 표본공간은 어떤 실험이나 시도의 결과로 나올 수 있는 모든 가능한 결과의 집합이다. 사건이랑 표본공간의 부분집합을 말한다. 확률 및 확률분포에 관한 설명
- (사건A가 일어나는 경우의 수)/(일어날 수 있는 모든 경우의 수)를 P(A)라 할때 이를 A의 수학적 확률이라 한다
- 한 사건 A가 일어날 확률은 P(A)라 할 때 n번의 반복시행에서 사건 A가 일어난 횟수를 r라 하면, 상대도수는 r/n는 n이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다. P(A)를 사건A의 통계적 확률이라 한다
- 두사건 A.B가 독립일때. 사건 B의 확률은 A가 일어났다는 가정 하에서의 B의 조건부확률과 같다
- 표본공간에서 임의의 사건A가 일어날 확률 P(A)는 항상 0과1사이에 있다

7. 표본조사의 유의점에 대한 설명
- 표본편의는 표본추출 과정에서 특정대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차를 의미한다
- 표본편의(Sampling bias)는 확률화에 의해 최소화하거나 없앨 수 있다
- 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본오차가 발생할 수 있다
- 응답오차, 유도질문 등은 표본조사에서 유의할 점이다

8. 표본조사나 실험을 하는 과정에서 추출된 원소나 관측자료를 얻는 것을 측정이라고 한다. 자료의 측정수준에 따라 통계에 이용해야 할 통계량이나 검정법이 다르다.
   자료는 분류자료와 수량자료로 나눌 수 있는데 자료의 측정 수준에 대한 설명
- 명목척도는 단순한 번호로 차례의 의미는 없다
- 순서척도는 순서가 의미를 가지는 번호이다
- 구간척도(등간척도)는 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료.
- 비율척도는 0을 기준으로 하는 절대적 척도를 간격뿐만 아니라 비율에도 의미가 있다

9. 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때(귀무가설을 기각하는 오류) 이를 재1종오류하고 한다. 이때 우리가 내린 판정이 잘못되었을 실제 확률은 무엇으로 나타낼 수 있는가
- p-value 는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률을 나타낸다 

- 통계부분에서 "알파(α)"는 유의수준을 나타낸다 > 유의수준은 귀무가설을 기각하는 기준이 되는 임계값을 의미하며, 보통 0.05 또는 0.01과 같이 작은 값을 가진다
- 1-α는 신뢰수준(Confidence Level)을 나타내며, 신뢰수준은 통계적 추정에서 사용되며, 특정 추정 구간이 모집단의 파라미터를 포함할 가능성. 일반적으로, 신뢰수준은 95%나 99%로 설정
- 검정통계량은 가설검정에서 사용되는 통계량 > 검정통계량 = 표본 통계량 - 기대값/표준편차

10. 확룰변수 X가 확률질량함수 f(x)를 갖는 이산형 확률변수인 경우 그 기댓값으로 옳은 식
- 이산형 확률변수의 기댓값 > 
- 연속형 확률변수의 기댓값 > 

11. 조건부 확률에서 사건A가 일어났다는 가정하의 사건B의확률을 조건부확률이라고 하고 P(B|A)=P(A∩B)/P(A)이다 

12. 모분산의 추론에 대한 설명
- 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다
- 정규모집단으로부터 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인의 카이제곱 분포를 따른다
> 표본의 분산을 계산할 때, 정규모집단에서 무작위로 추출된 표본에 대한 분산은 표본 크기에서 1을 뺀 자유도를 가진 카이제곱 분포를 따르게 됩니다. 이를 "표본 분산의 자유도"라고 합니다
- t-분포는 두 집단의 평균이 동일한지 알고자 할 때 사용되며, 자유도가 증가하면 t-분포는 표준정규분포에 수렴한다
- 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다
> 중심극한정리 : 모집단이 어떤 분포를 가지더라도 충분히 큰 표본의 평균은 정규분포에 근접한다는 원리
- 이 표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교(등분산비교)하는 검정으로 검정통계량은 F분포를 따른다 
> F-분포 : 두 집간 간 분산의 동일성 검정에 사용. 확률변수는 항상 양의값만을 가지며 카이제곱분포와 달리 자유도를 2개 가지고 있으며, 자유도가 커질수록 정규분포에 가깝다

13. 통계적 추론이란 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정으로, 추정과 가설검정을 통하여 이루어진다. 표본을 이용하여 모집단의 특성치에 대한 추측값을 제공하고 오차한계를 제시하는 과정을 추정이라고 한다.
    추정에 대한 설명
- 추정의 목적은 표본통계량에 기초하여 모수의 근사값을 결정하는 것이다, 표본평균을 활용해서 모평균을 추정하는 것 등을 예로 들 수 있다
- 384p 2번 지문
- 신뢰수준 95%의 의미는 모수가 신뢰구간 내에 존재할 확률이 95%라는 것이다
- 구간추정은 모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정하는 것이며 실제 모집단의 모수는 신뢰구간에 포함되지 않을 수도 있다

14. 확률질량함수를 가진 확률변수 x의 기댓갑 E(x)로 적절한 것
- 확률질량함수를 가진 이산형 확률변수 X의 기댓값 E(X)은 각 값에 대한 확률 가중치를 곱하여 합산한 값
- 예) 예를 들어, 주사위를 던질 때 나올 수 있는 눈의 값에 대한 확률질량함수 
P(X=1)=1/6,P(X=2)=1/6,P(X=3)=1/6,P(X=4)=1/6,P(X=5)=1/6,P(X=6)=1/6
기댓값E(X) = (1⋅1/6)+(2⋅1/6)+(3⋅1/6)+(4⋅1/6)+(5⋅1/6)+(6⋅1/6)=3.5
따라서, 주사위를 던질 때 나올 눈의 값에 대한 기댓값은 3.5입니다.

15. 이산형 확률분포에 해당하는 것
- 베르누이, 이항, 다항, 포이송, 기하, 초기하분포 등이 있다
- 연속형 확률분포에는 균일, 정규, 지수, t-분포, 카이제곱분포, F-분포 등이 있다

16. 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험단위로부터 주어진 목적에 적합하도록 관측해 자룔르 얻는 것을 측정이라 한다. 
    자료의 종류에 대한 설명
- 명목척도 > 측정 대상이 어느집단에 속하는지 분류할 때 사용하는 척도로 성별구분 등이 해당
- 순서척도 > 측도 대상의 특성이 가지는 서령관계를 관측하는 척도로 특정 서비스의 선호도등이 해당
- 비율척도 > 절대적 기준인 0이 존재하며, 사칙연산이 가능하고 제일 많은 정보를 가지고 있는 척도로 나이,무게 등이 해당
- 구간척도 > 측정 대상이 갖는 속성의 양을 측정하는 것으로 온도 등이 해당

17. 히스토그램은 표로 되어 있는 도수분포표를 그래프로 나타낸 것이다. 히스토그램에 대한 설명
- 히스토그램에서는 가로축이 계급, 세로축이 도수를 나타낸다. 계급은 보통 변수의 구간이며, 서로겹치지 않는다
- 히스토그램은 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해내지 못한다
- 그래프 모양이 치우쳐있거나 봉우리가 여러개 있는 그래프는 비정규데이터일 수 있다
- 봉우리가 여러개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생한다
*("공정"은 일반적으로 실험, 조사, 또는 연구에서 변화시키거나 조절할 수 있는 요인 또는 조건)

18. 데이터셋에 대한 설명 (요약통계량)
- 연속형 변수 : 측정이 가능한 어떤 범위내에서 어떤 값을 가질 수 있으며, 두 값 사이에는 무수히 많은 가능한 값이 존재함. 예를 들어 키,몸무게,시간,온도 등
- 연속형 변수에 대한 통계 요약함수 > 평균,(Mean)중앙값(Median),최솟값 (Min),최댓값(Max),1사분위수,3사분위수
- 범주형 변수 : 한정된 몇 가지 범주 중 하나의 값을 가지며 각 범주는 서로 구분된다 예로 성병,혈액형,학력수준 등
- 범주형 변수에 대한 통계 요약함수 > 빈도(Frequency),상대도수(Relative Frequency),최빈값(Mode),고유값의 수(Number of Unique Values)

728x90