본문 바로가기

ADsP(데이터 분석 준전문가)/문제풀이

[3-4. 통계분석] 19~50 번 문제풀이

728x90

19. 데이터프레임을 분석한 자료. 결과에 대한 해석
- 분석자료에서 df는 degree of freedom으로 자유도를 나타낸다
- conf.level=0.99는 99%의 신뢰수준을 나타냅니다. 이것은 "만약 같은 실험을 무한히 반복한다면, 결과가 신뢰구간에 속할 확률이 99%"라는 의미
- "mean of x 261.3099"라는 결과가 주어졌다면, 이는 표본 평균이 261.3099임을 나타내며, 점추정량이 261.3이라는 의미이다
- "95 percent confidence interval : 숫자1 숫자2" 이면 95%신뢰구간을 나타내며 숫자1에서 숫자2사이 이다 
- p-value가 작을수록 귀무가설을 기각하는 경향, p-value < 2.2e-16는 매우 작은 값 이는 해당 검정에서 얻은 데이터가 귀무가설이 참일 때 나타날 확률이 극히 낮다는 것을 의미

20. 제1종 오류에 대한 설명
- H1이 사실일 때. H1이 사실이 아니라고 판정
- 제2종 오류 > H1이 사실이 아닐 때, H1이 사실이라고 판정

21. 통계적 추론에서 모집단의 모수를 검증하기 위해 사용되는 모수적 방법과 비교하여 비모수적 방법의 특징
- 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용된다
- 분포의 모수에 대한 가설을 설정하지 않고 분포의 형태에 대해 가설을 설정한다
- 비모수적 검정은 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정한다 

22. 표본을 도표화함으로써 모집단 분포의 개형을 파악하는 방법에 대한 설명
- 히스토그램은 도수분포표를 이용하여 표본자료의 분포를 나타낸 그래프이다. 수평축 위에 계급구간을 표시, 그 위로 각 계급의 상대도수에 비례하는 넓이의 직사각형을 그린것
- 줄기잎그림은 각 데이터를 줄기와 잎으로 분리하여 시각적으로 나타낸다. 계산량이 많지않다
- 산점도는 두 특성의 값이 연속적인 수의 경우, 표본자료를 그래프로 나타내는 방법으로써 각 이차원자료에 대하여 좌표가(특성1의값, 특성2의값)안 점을 좌표평면 위에 찍은 것이다
- 파레토그림은 명목형 자료에서 "중요한 소수"를 찾는데 유용한 벙법이다

23. t-test를 실시한 결과에 대한 설명
- t.test(Wage$wage,mu=100)> t.test 함수는 t-검정(t-test)을 수행하는데, Wage$wage는 분석하려는 데이터(예: 임금 데이터)를 나타내며, mu=100은 귀무가설로 설정된 값
- p-value<2.2e-16 이므로 평균에 대한 95% 신뢰구간은 귀무가설에서 설정한 평균(100)의 참값을 포함하지 않는다

24. 이상값 탐색을 위해 상자그림을 사용 > 이상값을 판단하는 하한선, 상한선 계산
- Lower Bound=Q1−1.5×IQR / Upper Bound=Q3+1.5×IQR
- Lower Bound=4−1.5×8=−8 / Upper Bound=12+1.5×8=24
- 사분위수를 이용하여 > Q1-1.5*IOR, Q3+1,5*IOR = (4-1.5(12-4), 12+1.5(12-4)) = (-8, 24)
- 따라서 하하선 = -8 이고 상한선 = 24 이다 
- 이 범위 내에 있는 데이터는 일반적으로 정상 범위에 속하며, 이를 벗어나는 데이터는 이상치로 간주될 수 있다

25. 데이토프레임의 설명
- 명목척도 : 데이터를 범주나 이름으로 분류하는 것으로 예를 들어 성별, 혈액형, 학과 전공 등과 같이 범주로 나누어진 데이터를 다룰 때 유용하게 사용
- 구간척도 : 데이터들의 속성의 양을 측정하는 것으로 일정한 간격, 순서가 있음, 절대적인 영점이 없음. 예를 들어, 섭씨 온도나 화씨 온도는 구간척도의 예
- 비율척도 : 간격에 대한 비율이 의미를 가지며, 절재거 기준인 0이 존재하고, 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 예를 들어, 무게, 나이, 시간, 거리 등

26. 첨가물 그룹 간 평균무게에 차이가 있는지 검정하기 위해 분산분석을 한 결과 설명
- 귀무가설은 "첨가물 그룹 간의 평균이 모두 동일하다" 이다
- 전체 자유도(df)는 n-1(n:관측치 수)이며, 그룹의 자유도는 k-1(k:그룹의수)이다. 결과표에 feed의 df는 5이므로 첨가물의 개수는 6이다
- 유의수준 0.05하에서 첨가물 그룹 간의 무게 평균이 동일하지 않다는 통계적으로 유의한 증거가 있다
- 분산분석 결과 표에 F value가 표시되어 있다면, 해당 분석이 F-통계량을 기반으로 한 것임을 알 수 있다

27. 두 종류의 수면유도제를 무작위로 선정된 20명의 환자를 대상으로 수면시간증삼을 측정한 자료. 결과에 대한 설명 (p-value=0.07939)
- 유의확률(0.07939)이 유의수준(0.01)보다 크기 때문에 유의수준 1%하에서 수면유도제2가 1보다 통계적으로 유의하게 평균수면을 증가시킨다고 결론 지을 수 없다
- 95 percent confidence interval : -3.3654  0.2054
  > 두 수면유도제에 의해 증가된 평균 수면시간의 차이는 -3.37시간에서0.21시간 사이에 있다고 95% 확신할 수 있다
- mean in group 1 : 0.75 mean in group 2 : 2.33
  > 수면유도제 1에 의해 평균적으로 0.75시간의 수면시간이 증가, 수면유도제 2에 의해 평균적으로 2.33사간의 수면시간이 증가

29. 스피어마 상관계수에 대한 설명
- 스피어만 상관계수는 순서형 변수를 사용하며, 비모수적 상관관계를 나타낸다 
- 서열척도로 측정된 변수간 관계를 측정한다
- -1과 1사이의 값을 가진다
- 0은 상관관계가 없음을 의미 

30. 회귀분석의 가정으로 적절한 것
- 선형성 / 독립성 / 정규성 / 등분산선 / 비상관성

31. 상관계수에 대한 설명
- 피어슨 상관계수는 두 변수 간의 선형관계의 크기를 측정
- 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 측정 가능
- 피어슨 상관계수와 스피어만 상관계수는 -1과 1 사이의 값을 가진다
- 피어슨 상관계수는 연속형 변수에 사용하며 정규성을 가정한다
- 스피어만 상관계수는 순서형 변수에 사용하며 비모수적 방법

32. 상관분석에 대한 설명
- 등간척도 및 비율척도로 측정된 변수들 간의 상관계수를 측정하는데 피어슨 상관계수를 이용
- 서열 척도로 측정된 변수들 간의 상관계수를 측정하는데 스피어만 상관계수를 이용
- 상관분석은 변수들 간의 연관성을 파악하기 위해 사용하는 분석기법 중 하나로 변수 간의 선형관계정도를 분석하는 통계기법 
- 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법은 회귀분석이다 

33. 다중회귀모형이 통계적으로 유의미한지 확인하는 방법
- F-통계량을 확인한다
전체 모델의 유의성 검정(F-검정):
귀무가설(H0): 모든 회귀계수는 0이다 (즉, 모든 독립 변수들은 종속 변수에 영향을 미치지 않는다).
대립가설(H1 또는 Hₐ): 적어도 하나의 회귀계수는 0이 아니다 (모델은 유의미한 예측력을 가진다).
이 가설을 평가하기 위해 F-통계량을 사용하며, F-검정의 결과에 따라 모델이 전체적으로 통계적으로 유의미한지를 판단합니다.

개별 회귀계수의 유의성 검정(t-검정):
귀무가설(H0): 해당 회귀계수는 0이다 (해당 독립 변수는 종속 변수에 영향을 미치지 않는다).
대립가설(H1 또는 Hₐ): 해당 회귀계수는 0이 아니다 (해당 독립 변수는 종속 변수에 영향을 미친다).
이 가설을 각 회귀계수에 대해 t-통계량을 사용하여 평가하며, t-검정의 결과에 따라 각 독립 변수가 통계적으로 유의미한지를 판단합니다.

모델의 설명력 확인:
결정계수(R-squared) 및 수정된 결정계수(R-squared adjusted) 확인:
높은 결정계수는 모델이 데이터를 잘 설명한다는 것을 나타냅니다. 
하지만 변수가 추가될수록 결정계수가 증가할 수 있으므로, 수정된 결정계수를 함께 확인하는 것이 좋습니다.

34. 데이터프레임에 대해 R명령을 적용하고 결과을 얻었다 
- 상관분석을 통해 분산은 알 수 없으며, 변수 자기 자신과의 상관계수가 1이다

36. 상관계수의 행렬에 관한 설명
- 상관분석은 두 변수 간의 관계의 정도를 알아보기 위한 분석방법이지 상관분석으로 인과관계를 알 수 없다

37. 상관분석 결과
- 상관분석 결과에서 두 변수가 상관계수가 유의한지 아는 방법은 t검정하는 것이며, 
- 유의수준 (일반적으로 0.05 또는 0.01)과 비교하여 p-값이 유의수준보다 작다면 귀무가설을 기각하고, 두 변수 간의 상관이 통계적으로 유의하다고 결론지을 수 있다

38. 단순회귀분석의 결과
- 모형의 적합도를 확인하기 위해서는 p-value값을 확인한다 
- p-value: 2.2e-16 이므로 0.05보다 작데 나타나므로 통계적으로 유의하다 
- lm(formula = height ~ bodyweight) 일때 height가 종속변수이고, bodyweight가 독립변수이다. height (신장)이 bodyweight (체중)에 의존하는 관계
- Multiple R-squared (다중 결정 계수)는 회귀분석 모델이 종속 변수의 변동을 얼마나 잘 설명하는지를 나타내는 지표 중 하나입니다. 이는 모형의 설명력을 평가하는 데 사용
- Multiple R-squared는 0에서 1까지의 값을 가지며, 1에 가까울수록 모델이 종속 변수의 변동을 완벽하게 설명한다는 것

39. 회귀분석에서 가장 적합한 회귀모형을 찾기 위한 과정의 설명
- 독립변수의 수가 많아지면 모델의 설명력이 증가하지만 모형이 복잡해지고, 독립변수들 간에 서로 영향을 미치는 다중공선성의 문제가 발생하므로 상대적인 조정이 필요
- 회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 00라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다
- 잔차의 독립성, 등분산성 그리고 정규성을 만족하는지 확인해야 한다
- 회귀분석의 가설검정에서 p값이 0.05보다 작은 값이 나와야 통계적으로 유의한 결과오 받아들일 수 있다 

40. 회귀분석의 가정과 관련된 설명
- 회귀분석의 가정 중 선형성, 독립성, 등분산성, 비상관성이 있다
- 산점도가 나팔모양이면 오차의 분산이 예측치가 커짐에 따라 커지거나 작아지고 있음을 의미하여 등분산 가정이 무너지고 오차항의 이분산성을 가진다 

41. 95% 신뢰수준으로 모형화한 결과에 대한 설명
- 로지스틱 회귀는 종속 변수가 이항적인 경우 (예: 성공/실패, 1/0)에 사용되는 통계적 모델로, 종속 변수가 특정 클래스에 속할 확률을 예측하는데 사용
- 로지스틱 회귀의 적합 결과는 주로 다음과 같은 정보를 포함
> 회귀계수 (Coefficients, Estimate) : 각 독립 변수에 대한 회귀계수가 포함
> 표준오차 (Std.): 회귀계수에 대한 표준오차를 제공
> z 값 (Z-values): 회귀계수를 표준오차로 나눈 값
> p-값 (P-values): 각 회귀계수가 통계적으로 유의미한지 여부

42. 회귀분석에서 결정계수(R2)에 한 설명
- 걸정계수는 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율
- 회귀모형에서 입력 변수가 증가하면 결정계수도 증가한다
- 다중 회귀분석에서는 최적모형의 선정기준으로 결정계수 값보다 수정된 결정계수 값을 사용하는 것이 적절하다
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소한다

43. 회귀분석의 결과 출력 중 t값을 구하는 계산 식
- 매우 큰 수를 부동소수점으로 표현할 때 e를 이용하여 숫자에 지수를 추가할 수 있다
- 즉, 1.579e-01 이면 0.1579가 되며, 1.775e-02는 0.01775가 된다
- 따라서 0.1579/0.01775 가 답이다

44. 데이터의 정규성을 확인하기 위한 방법
- 히스토그램 / Q-Q plot / Shapiro-Wilks test 등을 활용하여 데이터의 정규성을 확인한다
- Durbin-Watson 회귀 모형 오차항의 자기상관이 있는지에 대한 검정이다

45. 최적회귀방정식을 선택하기 위한 방법
- 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다
- AIC나 BIC의 값이 가장 작은 모형을 선택하는 방법으로 모든 가능한 조합의 회귀분석을 실시한다
- 단계적 방법은 기존의 모형에서 예측변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이므로 전진선택법과 후진선택법과 동일한 최적의 모형을 가지는 것은 아니다 
- 전진선택법은 설명변수를 추가했을 때 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가한다

47. 시간의 흐름에 따하 관측된 데이터에 관한 것
- 시계열 자료

48. 정상 시계열에 대한 설명
- 대부분의 시계열은 비정상자료. 그러므로 비정상자료를 정상성 조건에 만족시켜 정상시계열로 만든 후 시계열 분석을 한다
- 시계열이 정상시계열인지 비정상시계열인지 판단하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 관찰해야한다
- 비정상 시계열은 정상시계열로 변경하고자 때 변환과 차분의 방법을 사용한다
- 평균이 일정하지 않은 비정상 시계열은 차분을, 분산이 일정하지 않은 비정상시계열은 변환을 통해 정상시계열로 바꾼다

49. 주성분분석은 p개의 변수들을 중요한 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는 방법을 사용. 주성분 개수(m)를 선택하는 방법에 대한 설명
- 전체 변이 공헌도방법은 전체 변이의 70~90% 정도가 되도록 주성분의 수를 결정
- 평균 고윳값 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 제거하는 것이 아니라 설정하는 것이다
- Scree graph를 이용하는 방법은 고유값의 크기순으로 산점도를 그린 그래프에서 감소하는 추세가 원만해지는 지점에서 1을 뺀 개수를 주성분의 개수로 선택한다
- 주성분은 주성분을 구성하는 변수들의 계수 구조를 파악하여 적절하게 해석되어야 하며, 명확하게 정의된 해석방법이 있는 것은 아니다 

50. 시계열 예측에서 정상을 만족한다는 것이 의미하는 것
- 분산이 시점에 의존하지 않는다 

728x90