본문 바로가기

728x90

ADsP(데이터 분석 준전문가)/문제풀이

(9)
[3-4. 통계분석] 62~75 번 문제풀이 ----------단답형---------------- 62. 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 떄까지 설명변수를 저거하는 방법 > 후진제거법 63. 아래는 College 데이터의 Grad.Rate 변수의 기초통계량을 계산한 결과이다. College 데이터의 Grad.Rate 변수의 몇 %가 78보다 큰 값을 가지는가? ›summary(College$Grad.Rate) min. 1st Qu. Median Mean 3rd Qu. Мах. 10.00 53.00 65.00 65.46 78.00 118.00 - "3rd Quartile"은 데이터의 상위 75%에 해당하는 범위를 의미...
[3-4. 통계분석] 51~61 번 문제풀이 51. 회귀모형에서 변수선택을 하기 위한 결과물 - step(model.direction="backward")라는 코드를 보고 후진제거법을 통한 변수선택을 하고 있음을 알 수 있다 - 모든 설명변수가 포함된 모형에서 시작한다 - 매 단계에서 가장 설명력이 낮은변수를 제거한다 - 한번 제거된 변수는 다시 모형에 포함될 수 없다 52. 주성분분석의 결과에 대한 설명 - 주성분의 분산의 크기를 보여주는 스크리 그림(scree plot)이다 - 주성분의 개수를 선택하기 위해 총 분산의 비율이 70~90 사이가 되는 지엄을 찾는데 사용되는 그래프이다 - 스크리 그림은 총 분산 비율과 고윳값이 수평을 유지하기 전단계로 주성분의 수를 선택. 총 분산의 비율은 주성분분석 결과에서 확인할 수 있다 - 몇 개의 주성분을 ..
[3-4. 통계분석] 19~50 번 문제풀이 19. 데이터프레임을 분석한 자료. 결과에 대한 해석 - 분석자료에서 df는 degree of freedom으로 자유도를 나타낸다 - conf.level=0.99는 99%의 신뢰수준을 나타냅니다. 이것은 "만약 같은 실험을 무한히 반복한다면, 결과가 신뢰구간에 속할 확률이 99%"라는 의미 - "mean of x 261.3099"라는 결과가 주어졌다면, 이는 표본 평균이 261.3099임을 나타내며, 점추정량이 261.3이라는 의미이다 - "95 percent confidence interval : 숫자1 숫자2" 이면 95%신뢰구간을 나타내며 숫자1에서 숫자2사이 이다 - p-value가 작을수록 귀무가설을 기각하는 경향, p-value H1이 사실이 아닐 때, H1이 사실이라고 판정 21. 통계적 추..
[3-4. 통계분석] 1~18번 문제풀이 통계분석 오답노트 1. 임금과 교육수준의 관계를 나타낸 그래프의 설명 - 각 학력 수준에 따라 임금의 분포를 나타낸다 - 학력 수준이 높아질수록 임금은 높아지는 경향이 있다 - 히스토그램의 각 막대의 높이는 빈도를 나타낸다. 임금수준은 x축을 통해서 확인할 수 있다 2. 모집단에서 표본을 추출하는 방법 - 단순랜덤추출법 : 모집단의 모든 개체가 동일한 확률로 표본에 선택되는 방법 - 계통추출법 : 모집단에서 일정한 간격(계통)으로 표본을 추출하는 방법 - 층화추출법 : 모집단을 여러 부분집단(층)으로 나눈 후, 각 층에서 무작위로 표본을 추출하는 방법 - 집락추출법 : 모집단을 서로 겹치지 않는 여러 집단(클러스터)으로 나눈 후, 일부 클러스터를 무작위로 선택 3. 확률이란 "특정사건이 일어날 가능성의 ..
[3-3. 데이터마트] 오답노트 1. 데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어하우스 > 데이터 마트 - 데이터베이스 : 체계적으로 구조화된 데이터의 모임 - 데이터 마이닝 : 대규모의 데이터 집합에서 유용한 정보나 패턴을 발견하기 위해 통계학, 수학, 인공지능 등의 기술을 활용하는 프로세스 - 데이터 프레임 : 표 형태의 데이터 구조로, 행과 열로 이루어짐. 데이터를 쉽게 조작하고 분석할 수 있게 하는 자료구조 2. 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지 -> reshape패키지 : 데이터를 원하는 형태로 바꿔주는 melt함수와 원하는 부분만을 선택하는 cast함수로..
[3-2. R프로그래밍 기초] 오답노트 R 프로그래밍 기초 1. 벡터에 대한 설명 - 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합 - 한 벡터의 모든 원소는 같은 자료형(숫자 또는 문자)으로 구성된다 - 백터는 1차원 구조이다 - 벡터는 행렬 구조로 나타나지 않는다 2. 벡터 xy에 대한 설명 x
[3-1. 데이터 분석 개요 ] 오답노트 1. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방법 정답 : 탐색적자료분석(EDA) (다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정) 2. 데이터 마이닝의 모델링에 대한 설명 - 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다 - 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행 - 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시한다 - 성능에 집착하면 분석 모델링의 주목적인 실무 적용에 반하여 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없..
[2. 데이터 분석 기획] 오답노트 1. 분석의 대상 과 분석의 방식에 따라 4가지로 분류 - 대상을 알고, 방식을 알면 최적화(optimization) - 대상을 알고, 방식을 모르면 solution - 대상을 모르고, 방식을 알면 통찰(insight) - 대상을 모르고, 방식을 모르면 discovery 2. 분석대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용하여 (통찰)을 도출해냄으로써 문제의 도출 및 해결에 기여하거나 (발견) 접근법으로 분석 대상 자체를 새롭게 도출할 수 있다 3. 분석 기획 고려사항 중 장애요소에 대한 설명 - 비용대비 효과의 적정한 비용 - 분석 모형의 안정적 성능 확보 - 조직 역략으로 내재화를 위한 변화 관리 4. 성공적인 분석을 위해서 고려햐야 할 요소 - 관련 데이터의 파악 -> 분석의 기..
[1. 데이터 이해] 오답노트 데이터의 이해 오답노트 1. 데이터는 형태에 따라 정성데이터, 정량데이터로 구분된다 - 정량 데이터 : 정형데이터, 객관적 내용, 통계분석이 용이 - 정성 데이터 : 비정형데이터, 주관적 내용, 통계분석이 어려움 2. 암묵지와 형시지의 상호작용 관계 - 공통화 > 표출화 > 연결화 > 내면화 - 공통화 : 암묵지를 타인에게 알려주기 - 표출화 : 암묵지를 책 등 형식지로 만들기 - 연결화 : 책 등에 자신이 아는 새로운 지식 추가 - 내면화 : 책 등을 보고 타인들이 암묵적 지식 습득 3. SQL은 다양한 집계함수를 제공 - COUNT는 어떠한 데이터의 타입에도 사용이 가능하다 4. 개인정보 비식별화 기법을 설명 - 가명처리 : 개인 식별이 가능한 데이터에 대하여 직접적으로 식별 할 수 없는 다른 값으로..

728x90