본문 바로가기

ADsP(데이터 분석 준전문가)/문제풀이

[3-4. 통계분석] 62~75 번 문제풀이

728x90

----------단답형----------------
62. 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 떄까지 설명변수를 저거하는 방법
> 후진제거법

63. 아래는 College 데이터의 Grad.Rate 변수의 기초통계량을 계산한 결과이다. College 데이터의 Grad.Rate 변수의 몇 %가 78보다 큰 값을 가지는가?
›summary(College$Grad.Rate)
min.     1st Qu.    Median    Mean      3rd Qu.     Мах.
10.00     53.00     65.00     65.46     78.00       118.00
- "3rd Quartile"은 데이터의 상위 75%에 해당하는 범위를 의미. 이 값은 데이터의 상위 25%와 하위 75%를 분리하는 지점
- 주어진 결과에서 Grad.Rate 변수의 3rd Quartile 값은 78.00입니다. 3rd Quartile은 데이터의 상위 75%를 나타냄
- 이 값은 데이터의 상위 75%에 해당하는 값. 따라서, Grad.Rate 변수의 값 중 78보다 큰 값의 비율은 25%이다 

64. 아래 주성분분석의 결과에서 두 개의 주성분을 사용할 때 설명 가능한 전체 분산의 비율은?


- Cumulative proportion : 데이터의 누적 비율을 나타내어 전체를 기준으로 특정 값을 얼마나 포함하는지를 알려준다.
- 두 주성분을 합하면 설명 가능한 전체 분산의 비율은 45.3% + 23.1% = 68.4%입니다. 이렇게 봐도되고
- Cumulative proportion의 두 번째 주성분일 때 0.684 이므로 68.4%이다 

65. 회귀계수의 추정치는 보통 제곱오차을 최소로 하는 값을 구한다 이와같이 구해진 회귀계수 추정량을 무엇 이라고 하나?
- 회귀계수의 추정치를 "최소제곱 추정량" 이라고 합니다
- 최소제곱 추정량은 회귀모형의 예측값과 실제 종속변수 값 간의 잔차(오차)를 최소화하는 회귀계수를 찾는 방법
- 즉, 회귀계수를 조정하여 예측값과 실제값 간의 차이를 최소로 만드는 방향으로 추정량을 조정하는 것을 의미
- 이 추정 방법은 오차의 제곱을 최소화하는 방식으로 동작하며, 이러한 이유로 "최소제곱"이라는 용어가 사용
- 이 추정 방법은 회귀분석에서 종속변수와 독립변수 간의 관계를 나타내는 선형 모형을 적합시킬 때 사용 

66. 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누가 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출방법?
- 계통 표본 추출법 (Systematic Sampling)
- 이 방법은 모집단을 번호 또는 순서대로 나열하고, 일정한 간격으로 표본을 추출하는 방법
- 단순 랜덤(무작위 표본) 추출법 (Simple Random Sampling): 이 방법은 모집단에서 모든 항목들이 동일한 확률로 선택될 수 있도록 하는 표본 추출 방법입니다. 예를 들어, 난수를 발생시켜 표본을 선택하는 방법이 있습니다.
- 층화 표본 추출법 (Stratified Sampling): 모집단을 여러 층(strata)으로 나눈 후, 각 층에서 무작위로 표본을 추출하는 방법입니다. 각 층은 모집단의 특정 특성에 따라 구분되며, 각 층에서는 동일한 비율이나 크기로 표본을 추출할 수 있습니다.
- 집략(군집표본)추출법 (Cluster Sampling): 모집단을 작은 군집(cluster)으로 나눈 후, 몇 개의 군집을 무작위로 선택하여 해당 군집 전체를 조사하는 방법입니다. 군집 내에서는 모든 항목을 조사하지만, 전체 군집의 일부만을 선택함으로써 조사를 간편하게 만듭니다.

67.귀무가설이 옳은데 귀무가설을 받아드리지 않고 기각학게 되는 오류
- 제1종 오류
- 귀무가설이 틀렸는데 귀무가설을 옳다고 받아드리는 것 > 제2종 오류 

68. 단순 로지스틱 회귀모형이다. exp()의 의미는 x1,x2,,xn 가 주어질 때 x1이 한 단위 증가 할 때마다 성공(y=1)의 (가)이/가 몇 배 증가하는지를 나타내는 값이다."(가)는 무엇인가?
- "(가)"는 오즈(odds)이다 
- 오즈(odds)는 어떤 사건이 발생할 확률(성공확률)(p)과 발생하지 않을 확률(1-p) 사이의 비율
- 오즈가 2라면 발생할 확률이 발생하지 않을 확률의 두 배라는 것을 의미
- 회귀계수의 지수 함수인 exp(가)는 독립 변수의 변화가 종속 변수의 오즈에 미치는 영향을 나타낸다

69. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?
- 정답 : 정상성
- 정상성 시계열의 특성 : 수준(평균)이 일정 / 분산이 일정 / 엄밀한 주기적 변동이 없음 / 체계적인 추세가 없음

70. 시계열 모형 중 설명하는 것은
가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형임
나) 백색잡음의 현재값과 자기자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
다) 모형에 사용하는 시계열 자료의 시점에 따라 1차,2차,..,p차 등을 사용하나 정상시계열 모형에서는 주로 1,2차를 사용함 
- 자기회귀 모형 (AR, Autoregressive Model)
- ARMA 모형 (Autoregressive Moving Average Model): 백색잡음의 현재값과 자기자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
- 정상 시계열 모형에서는 주로 1차나 2차를 사용하는 경우가 많습니다. 1차나 2차로 충분하다면 더 높은 차수를 사용하지 않는 것이 모형을 더 간단하게 유지하는데 도움
- 이동평균 모형(MA 모형)은 시계열 데이터에서 현재 값이 백색잡음(white noise)의 현재값과 이전 시점들의 백색잡음 값들의 선형 가중합으로 표현되는 모형
- MA모형(이동평균 모형)은 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족

71. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 분해 시계열 (Time Series Decomposition)
- 분해 시계열은 시계열 데이터를 여러 구성 요소로 분해하여 추세, 계절성, 순환성, 잔차 등을 분석하는 기법
- 추세(Trend): 데이터가 시간에 따라 증가하거나 감소하는 장기적인 패턴을 나타냅니다. 추세는 경향성을 보여줄 수 있습니다.
- 계절성(Seasonality): 데이터가 특정 주기(예: 일, 주, 월)에 따라 주기적인 패턴을 나타냅니다. 계절성은 일정한 주기로 반복되는 패턴입니다.
- 순환성(Cyclical): 장기적이지만 정기적이지 않은 트렌드를 나타냅니다. 경제 주기와 같은 장기적인 변동이 여기에 속할 수 있습니다.

72. 아래는 스위스의 47개 프랑스어 사용지역의 출산율(Fertility)과 교육수준(Education)과의 관 계를 회귀모형으로 추정한 것이다. 아래의 결과를 사용하여 결정계수()을 계산하시오.


- 결정계수 R2은 모형이 데이터의 변동을 얼마나 잘 설명하는지를 나타내는 지표
- 결과에서 Sum Sq는 제곱합(Sum of Squares)을 나타내며, Education에 대한 제곱합은 3162.7이고 Residuals(잔차)에 대한 제곱합은 4015.2
- Total Sum of Squares (SST)=Sum Sq(Education)+Sum Sq(Residuals)
- R2(결정계수) = 1 - 4015.2/3162.7+4015.2
= 0.440616336254336 인데 반올림해서 0.441 이다 

73. 최적회귀방식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은영향을 주는 변수부터 하나씩 제거하면서 
    더이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법  > 후진제거법 (Backward Elimination)

74. data는 메이저리그에서 활약하는 263명의 선수에 대한 타자 기록으로 연봉(salary)을 비롯한 17개의 변수를 포함하고 있다. 아래는 17개의 변수들을 사용하여 주성분분석을 시행한 결과이다. 아래 결과를 사용하여 17차원을 3차원으로 축소할 경우 잃게 되는 정보량을 백분율(%)로 표현 하시오. (소수 둘째자리에서 반올림)


- Cumulative Proportion에서 주어진 정보를 사용하여 계산
- Information Lost = 1 − Cumulative Proportion for 3 components
- 3번째(Comp.3)의 Cumulative proportion 값이 0.7966195이다 
- Information Lost=1−0.7966195 ≈ 0.2034
- Information Lost (%)=0.2034×100≈20.34%
- 따라서, 17차원을 3차원으로 축소할 경우 약 20.3%의 정보를 잃게 됩니다.

75. 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치이다.평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적 인 방법이다.
- 중앙값(Median)
- 데이터의 개수가 홀수라면 정렬된 순서에서 가운데에 위치한 값이 중앙값이 되고, 짝수라면 가운데 두 값의 평균이 중앙값이 됩니다.

728x90