본문 바로가기

728x90

ADsP(데이터 분석 준전문가)

(35)
[3-5. 정형 데이터 마이닝] 4. 인공신경망 분석 학습목표 - 인공신경망은 분류분석 문제를 해결하는데 상당히 높은 적중률을 보여주는 데이터 마이닝 기법 - 인공신경망은 인간의 신경세포 통한 학습방법에서 아이디어를 얻어 이를 디지털 네트워크 모형으로 구현 - 인공신경망 모형은 비선현성 분류문제를 분류할 수 없어 한계에 부딪혔다가 다계층 퍼셉트론을 활용한 역전파 알고리즘이 개발되면서 급속히 발전 - 인공신경망 모형 구축시 입력변수는 구간화를 통해 범주형 변수로 이산화하여 적용하는 것이 유용 - 가중치는 0에 가까운 값에서 시작해서 높이는 것이 좋음 - 은닉층과 은닉노드의 수는 많으면 과대적합, 적으면 과소적합 할 수 있기 때문에 은닉층은 하나, 은닉도수는 적절히 많은 개수에서 줄여가는 것이 바람직 1) 인공신경망 분석(ANN) 1. 인공신경망이란? - 인간..
[3-5. 정형 데이터 마이닝] 3. 앙상블 분석 학습목표 - 분류분석 문제의 해결을 위한 의사결정나무와 같은 방법론은 개발데이터에 너무 적합되어있어 테스트데이터에는 좋은 정확도가 나타나지 못함 - 앙상블 기법 : 과대적합/과소적합의 문제를 해결하기 위해 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것 - 앙상블 기법 중에 배깅, 부스팅, 랜덤포레스트, 스태킹 등이 있음 - 배깅 : 여러개의 붓스트랩의 자료를 통해 예측된 분류결과를 결합하는 방법 - 부스팅, 랜덤포레스트 : 분류기들에 가중치를 주어 선형결합을 통해 최종 결과를 예측하는 방법 1) 앙상블(Ensemble) 1. 정의 - 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법 - 다중 모델 조합(Combining Multiple M..
[3-5. 정형 데이터 마이닝] 2.분류분석 학습목표 + 분류분석의 개요와 기법을 이해 - 분류분석: 레코드의 특정 속성의 값이 범주형으로 정해져 있으며 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법 - 사기방지모형, 이탈모형, 고객세분화모형 등을 개발할 때 활용되는 마이닝 기법 - 분류 기법에는 로지스틱회귀분석, 의사결정나무, 베이지안 분류, 인공신경망, SVM등에서 활용 + 의사결정나무 - 의사결정나무 분석은 분류함수를 의사결정 규칙으로 이뤄진 나무모양으로 그리는 방법 - 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한 눈에 볼 수 있으며 계산결과가 의사결정나무에 직접 나타나게 돼 분석이 간편 - 의사결정나무의 종류로는 가장 많이 활용되고 있는 CART과 C4.5와 CHAID등 다양한 문제를 해결 1) 분류분석과 ..
[3-4. 통계분석] 62~75 번 문제풀이 ----------단답형---------------- 62. 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 떄까지 설명변수를 저거하는 방법 > 후진제거법 63. 아래는 College 데이터의 Grad.Rate 변수의 기초통계량을 계산한 결과이다. College 데이터의 Grad.Rate 변수의 몇 %가 78보다 큰 값을 가지는가? ›summary(College$Grad.Rate) min. 1st Qu. Median Mean 3rd Qu. Мах. 10.00 53.00 65.00 65.46 78.00 118.00 - "3rd Quartile"은 데이터의 상위 75%에 해당하는 범위를 의미...
[3-4. 통계분석] 51~61 번 문제풀이 51. 회귀모형에서 변수선택을 하기 위한 결과물 - step(model.direction="backward")라는 코드를 보고 후진제거법을 통한 변수선택을 하고 있음을 알 수 있다 - 모든 설명변수가 포함된 모형에서 시작한다 - 매 단계에서 가장 설명력이 낮은변수를 제거한다 - 한번 제거된 변수는 다시 모형에 포함될 수 없다 52. 주성분분석의 결과에 대한 설명 - 주성분의 분산의 크기를 보여주는 스크리 그림(scree plot)이다 - 주성분의 개수를 선택하기 위해 총 분산의 비율이 70~90 사이가 되는 지엄을 찾는데 사용되는 그래프이다 - 스크리 그림은 총 분산 비율과 고윳값이 수평을 유지하기 전단계로 주성분의 수를 선택. 총 분산의 비율은 주성분분석 결과에서 확인할 수 있다 - 몇 개의 주성분을 ..
[3-5. 정형 데이터 마이닝] 1.데이터 마이닝의 개요 5장 정형 데이터 마이닝 학습목표 -데이터 마이닝의 개념 >데이터 마이닝은 기존 통계와는 달리 대용량 데이터베이스 시스템에서 데이터들 간의 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용 -데이터 마이닝 방법론 > 목적에 따라서 문제를 예측하는 것과 결과를 해석하는 것으로 구분 > 종류 : 분류분석, 예측분석, 군집분석, 연관성분석 등 -데이터 마이닝 절차 > 통계분석에서 활용되는 절차와 비슷하지만 SAS에서 사용하고 있는 SEMMA방법 그리고 SPSS, 테라데이타, 다임러, NCR등에서 개발한 Crisp-DM방법 1절 데이터 마이닝의 개요 1) 데이터 마이닝 1. 개요 : 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 2. 통계분석과의 차이점 - 통계..
[3-4. 통계분석] 19~50 번 문제풀이 19. 데이터프레임을 분석한 자료. 결과에 대한 해석 - 분석자료에서 df는 degree of freedom으로 자유도를 나타낸다 - conf.level=0.99는 99%의 신뢰수준을 나타냅니다. 이것은 "만약 같은 실험을 무한히 반복한다면, 결과가 신뢰구간에 속할 확률이 99%"라는 의미 - "mean of x 261.3099"라는 결과가 주어졌다면, 이는 표본 평균이 261.3099임을 나타내며, 점추정량이 261.3이라는 의미이다 - "95 percent confidence interval : 숫자1 숫자2" 이면 95%신뢰구간을 나타내며 숫자1에서 숫자2사이 이다 - p-value가 작을수록 귀무가설을 기각하는 경향, p-value H1이 사실이 아닐 때, H1이 사실이라고 판정 21. 통계적 추..
[3-4. 통계분석] 1~18번 문제풀이 통계분석 오답노트 1. 임금과 교육수준의 관계를 나타낸 그래프의 설명 - 각 학력 수준에 따라 임금의 분포를 나타낸다 - 학력 수준이 높아질수록 임금은 높아지는 경향이 있다 - 히스토그램의 각 막대의 높이는 빈도를 나타낸다. 임금수준은 x축을 통해서 확인할 수 있다 2. 모집단에서 표본을 추출하는 방법 - 단순랜덤추출법 : 모집단의 모든 개체가 동일한 확률로 표본에 선택되는 방법 - 계통추출법 : 모집단에서 일정한 간격(계통)으로 표본을 추출하는 방법 - 층화추출법 : 모집단을 여러 부분집단(층)으로 나눈 후, 각 층에서 무작위로 표본을 추출하는 방법 - 집락추출법 : 모집단을 서로 겹치지 않는 여러 집단(클러스터)으로 나눈 후, 일부 클러스터를 무작위로 선택 3. 확률이란 "특정사건이 일어날 가능성의 ..
[3-4. 통계분석] 6.주성분 분석 6절 주성분 분석 1) 주성분분석 (Principal Component Analysis, PCA) - 여러 변수들의 변량을 '주성분(Principal Component)'이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 - 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, - 두번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다 - 다차원 데이터에서 주요한 정보를 추출하고 차원을 축소하는 통계적 기법 - 변수 간의 상관성을 고려하여 데이터를 효과적으로 축소하고, 주성분을 통해 데이터의 구조를 파악하는 ..
[3-4. 통계분석] 5.다차원척도법 5절 다차원척도법 학습목표 +다처원 척도법(MDS) -다차원척도법(Multidimensional Scaling/MDS)은 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원또는 3차원 공간상에 점으로 표현하는 분석방법 +군집분석 -군집분석은 개체들 간의 비유사성을 이용하여 동일한 그룹들로 분류하는 것이 목적인 반면 -다차원척도법은 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현하는 것을 목적 +주성분분석 -주성분분석(Principal Component Analysis,PCA)은 상관관계가 있는 변수들의 선형결합을 통해 변수를 축약하는 기법 -넓은 의미에서는 요약분석(Factor Analysis..

728x90