본문 바로가기

ADsP(데이터 분석 준전문가)/문제풀이

[3-4. 통계분석] 51~61 번 문제풀이

728x90

51. 회귀모형에서 변수선택을 하기 위한 결과물
- step(model.direction="backward")라는 코드를 보고 후진제거법을 통한 변수선택을 하고 있음을 알 수 있다
- 모든 설명변수가 포함된 모형에서 시작한다
- 매 단계에서 가장 설명력이 낮은변수를 제거한다
- 한번 제거된 변수는 다시 모형에 포함될 수 없다 

52. 주성분분석의 결과에 대한 설명
- 주성분의 분산의 크기를 보여주는 스크리 그림(scree plot)이다 
- 주성분의 개수를 선택하기 위해 총 분산의 비율이 70~90 사이가 되는 지엄을 찾는데 사용되는 그래프이다
- 스크리 그림은 총 분산 비율과 고윳값이 수평을 유지하기 전단계로 주성분의 수를 선택. 총 분산의 비율은 주성분분석 결과에서 확인할 수 있다
- 몇 개의 주성분을 사용하여 차원 축소를 진행할지 결정하기 위해 사용한다

53. 주성분 분석을 시행한 결과에 대한 설명
- pca=princomp(data,cor=TRUE) 코드에서 cor=TRUE: 상관 행렬을 사용하여 주성분 분석을 수행하라는 옵션
- cor=FALSE로 변경하면, 주성분 분석이 공분산 행렬을 기반으로 수행

54. 시계열 데이터를 분석하기 위한 절차
1. 시간 그래프 그리기
2. 추세와 계절성을 제거하기
3. 잔차를 예측하기
4. 잔차에 대한 모델 적합하기
5. 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기

55. lasso회귀모형에 대한 설명
- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식
- 자동적으로 변수선택을 하는 효과가 있다
- Lambda값으로 penalty의 정도를 조정한다
- lasso회귀모형에서는 사용하는 규제방식을 L1규제(penalty)라고 한다

56. 교차분석은 2개 이상의 변수를 결합하여 자료의 빈도를 살펴보는 기법이다. 교차분석에 대한 설명
- 범수의 관찰도수에 비교될 수 있는 기대도수를 계산한다 (관찰도수=실제데이터, 기대도수=독립성을 가정할 때 기대되는 빈도)
- 교차분석은 두 문항 모두 범주혈 변수일 때 사용되는 분석으로 두 변수간의 관련성을 보기 위해 실시한다
- 교차분석은 교차표를 작성하여 교차빈도를 집계할 뿐 아니라 두 변수들 간의 독립성 검정을 할 수 있다
- 기대빈도가 5 미만인 셀의 비율이 20%를 넘으면 카이제곱분포에 근사하지 않으며 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 등을 사용한다

57. 시계열 데이터에 대한 설명
- 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색 목적과 예측목적으로 나눌 수 있다
- 짧은 기간동안의 주기적인 패턴을 계절변동이라 한다
- 잡음(noise)은 무작위적 변동이며 일반적인 원인이 알려져 있지 않다
- 시계열분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다 

58. 다차원척도법(MDS)에 대한 설명
- 다차원척도법은 여러 대상들 간의 관계를 개체들 사이의 유사성/비유사성을 상대적 거리로 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석방법
- 다차원척도법의 목적은 데이터 속에 잠재한 패턴을 찾기위해 복잡한 구조를 소수 차원의 공간에 기하학적으로 표현
- 계량적 다차원척도법은 비율척도, 구간척도의 데이터를 활용하고 비계량적 다차원척도법은 순서척도의 데이터를 활용
- 스트레스 값이 0.05이하이면 적합정도가 아주 좋은 것으로 해석하고 반복분석과정을 중단해도 된다

59. 시계열의 요소분해법은 시계열 자료가 몇 가지 변동들의 결합으로 이루어져 있다고 보고 변동요소 별로 분해하여 쉽게 분석하기 위한 것이다
    분해 요소에 대한 설명
- 추세분석은 장기적으로 변해가는 큰 흐름을 나타내는 것으로 자료가 장기적으로 커지거나 작아지는 변화를 나타내는 요소이다
- 계절변동은 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화를 나타내는 요소 
- 순환변동은 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료를 의미
- 불규칙변동은 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동을 말한다
 
60. 데이터 결과 표
- loadings=TRUE로 설정하면 주성분 분석 결과에 대한 변수의 주성분 적재량(loadings) 정보가 함께 표시
- Cumulative proportion : 데이터의 누적 비율을 나타내어 전체를 기준으로 특정 값을 얼마나 포함하는지를 알려준다.
  > 주성분의 수가 많아져서 Cumulative proportion의 수치가 1이되면 전체 데이터 분산을 모두 설명할 수 있다는 의미이다 
- Loading(주성분 적재량): 각 변수에 대한 주성분의 적재량은 해당 변수가 주성분에 기여하는 정도를 나타냅니다

61. 변수들의 전체 변동의 80%이상을 설명하기 위해 필요한 최소 주성분의 숫자를 구하는 방식
Cumulative proportion  0.6201   0.8675   0.95664   1.00000
위의 수치에서 두번째에서 0.8이상이 되므로 80% 이상을 설명하려면 최소2개이상의 주성분이 필요하다

728x90