본문 바로가기

728x90

ADsP(데이터 분석 준전문가)/개념정리

(26)
[3-5. 정형 데이터 마이닝] 4. 인공신경망 분석 학습목표 - 인공신경망은 분류분석 문제를 해결하는데 상당히 높은 적중률을 보여주는 데이터 마이닝 기법 - 인공신경망은 인간의 신경세포 통한 학습방법에서 아이디어를 얻어 이를 디지털 네트워크 모형으로 구현 - 인공신경망 모형은 비선현성 분류문제를 분류할 수 없어 한계에 부딪혔다가 다계층 퍼셉트론을 활용한 역전파 알고리즘이 개발되면서 급속히 발전 - 인공신경망 모형 구축시 입력변수는 구간화를 통해 범주형 변수로 이산화하여 적용하는 것이 유용 - 가중치는 0에 가까운 값에서 시작해서 높이는 것이 좋음 - 은닉층과 은닉노드의 수는 많으면 과대적합, 적으면 과소적합 할 수 있기 때문에 은닉층은 하나, 은닉도수는 적절히 많은 개수에서 줄여가는 것이 바람직 1) 인공신경망 분석(ANN) 1. 인공신경망이란? - 인간..
[3-5. 정형 데이터 마이닝] 3. 앙상블 분석 학습목표 - 분류분석 문제의 해결을 위한 의사결정나무와 같은 방법론은 개발데이터에 너무 적합되어있어 테스트데이터에는 좋은 정확도가 나타나지 못함 - 앙상블 기법 : 과대적합/과소적합의 문제를 해결하기 위해 여러 개의 분류기를 활용하여 앙상블을 이루도록 만든 것 - 앙상블 기법 중에 배깅, 부스팅, 랜덤포레스트, 스태킹 등이 있음 - 배깅 : 여러개의 붓스트랩의 자료를 통해 예측된 분류결과를 결합하는 방법 - 부스팅, 랜덤포레스트 : 분류기들에 가중치를 주어 선형결합을 통해 최종 결과를 예측하는 방법 1) 앙상블(Ensemble) 1. 정의 - 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법 - 다중 모델 조합(Combining Multiple M..
[3-5. 정형 데이터 마이닝] 2.분류분석 학습목표 + 분류분석의 개요와 기법을 이해 - 분류분석: 레코드의 특정 속성의 값이 범주형으로 정해져 있으며 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법 - 사기방지모형, 이탈모형, 고객세분화모형 등을 개발할 때 활용되는 마이닝 기법 - 분류 기법에는 로지스틱회귀분석, 의사결정나무, 베이지안 분류, 인공신경망, SVM등에서 활용 + 의사결정나무 - 의사결정나무 분석은 분류함수를 의사결정 규칙으로 이뤄진 나무모양으로 그리는 방법 - 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한 눈에 볼 수 있으며 계산결과가 의사결정나무에 직접 나타나게 돼 분석이 간편 - 의사결정나무의 종류로는 가장 많이 활용되고 있는 CART과 C4.5와 CHAID등 다양한 문제를 해결 1) 분류분석과 ..
[3-5. 정형 데이터 마이닝] 1.데이터 마이닝의 개요 5장 정형 데이터 마이닝 학습목표 -데이터 마이닝의 개념 >데이터 마이닝은 기존 통계와는 달리 대용량 데이터베이스 시스템에서 데이터들 간의 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용 -데이터 마이닝 방법론 > 목적에 따라서 문제를 예측하는 것과 결과를 해석하는 것으로 구분 > 종류 : 분류분석, 예측분석, 군집분석, 연관성분석 등 -데이터 마이닝 절차 > 통계분석에서 활용되는 절차와 비슷하지만 SAS에서 사용하고 있는 SEMMA방법 그리고 SPSS, 테라데이타, 다임러, NCR등에서 개발한 Crisp-DM방법 1절 데이터 마이닝의 개요 1) 데이터 마이닝 1. 개요 : 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 2. 통계분석과의 차이점 - 통계..
[3-4. 통계분석] 6.주성분 분석 6절 주성분 분석 1) 주성분분석 (Principal Component Analysis, PCA) - 여러 변수들의 변량을 '주성분(Principal Component)'이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 - 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, - 두번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다 - 다차원 데이터에서 주요한 정보를 추출하고 차원을 축소하는 통계적 기법 - 변수 간의 상관성을 고려하여 데이터를 효과적으로 축소하고, 주성분을 통해 데이터의 구조를 파악하는 ..
[3-4. 통계분석] 5.다차원척도법 5절 다차원척도법 학습목표 +다처원 척도법(MDS) -다차원척도법(Multidimensional Scaling/MDS)은 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원또는 3차원 공간상에 점으로 표현하는 분석방법 +군집분석 -군집분석은 개체들 간의 비유사성을 이용하여 동일한 그룹들로 분류하는 것이 목적인 반면 -다차원척도법은 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현하는 것을 목적 +주성분분석 -주성분분석(Principal Component Analysis,PCA)은 상관관계가 있는 변수들의 선형결합을 통해 변수를 축약하는 기법 -넓은 의미에서는 요약분석(Factor Analysis..
[3-4. 통계분석] 4.시계열분석 4절 시계열 분석 학습목표 +시계열 자료를 이해 - 시간의 흐름에 따라 관찰된 데이터를 시계열 데이터 또는 시계열 자료라고 한다 - ex : 주시가격 데이터, 실업률, 기후데이터 등 주변에 많다 +시계열 자료의 정상성을 구분 - 대부분의 시계열 자료는 비정상성 데이터 - 시계열 자료를 통해 미래를 예측하기 위해서는 비정상성 데이터를 정상성 데이터로 변화하여 분석모형을 설계 +시계열 분석 - 시계열 분석은 시계열 자료를 통해 미래를 예측하거나 시계열 데이터의 특성을 파악하는 것 - 시계열 분석은 자기회귀모형과 이동평균모형으로 구분 +회귀분석을 이해 - 시계열분석은 통계분석의 한 방법이지만 고급통계분석에 해당 - 시계열 분석을 이해하기 위해서는 회귀분석과 상관분석을 이해 1) 시계열 자료 1. 개요 - 시간..
[3-4. 통계분석] 3.회귀분석 3절 회귀분석 학습목표 +회귀분석의 정의와 가정을 이해 - 예)매출증대에 영향을 미치는 요소, 난방비에 영향을 주는 요소들, 학습능력을 향상시키는 요소들 +단순회귀분석과 다중회귀분석을 이해 - 단순회귀분석 : 하나의 요소가 결과에 미치는 영향을 모형화 - 다중회귀분석 : 여러 개의 요소가 결과에 미치는 영향을 모형화 (많이 발생) - *회귀분석에선 개념에 대한 문제,R프로그램 실행 후 Output을 해석하는 문제가 나옴 1) 회귀분석의 개요 1. 회귀분석의 정의 - 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 - 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법 - 독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 ..
[3-4. 통계분석] 2. 기초 통계분석 2절 기초 통계분석 학습목표 +기술통계 - 데이터분석에서 가장 먼저 수행되는 부문 - 자료의 특성을 표, 그림, 통계량 등을 사용하에 쉽게 파악할 수 있도록 정리/요약하는 통계 분석 방법론 +기술통계를 위한 기초통계량들 - 기술통계에 활용되는 통계량은 최솟값, 최댓값, 평균, 표준편차, 분산, 중앙값, 사분위수범위, 왜도, 첨도 등 +그래프를 활용한 기술통계방법 - 막대그래프, 히스토그램, 줄기잎그림, 상자그림, 꺾은선그래프 등 +상관분석 - 두 변수 간의 관계를 분석하기 위해서 공분산과 상관계수를 활용 - 한 변수의 값이 증가할 때 상대변수의 값이 증가하면 양의상관, 상대변수의 값이 감소하면 음의상관 - 상관계술르 통해 상관성의 정도를 설명할 수 있다 1) 기술통계(Descriptive Statisti..
[3-4. 통계분석] 1.통계분석의 이해 4장 통계분석 학습목표 + 통계의 정의와 자료획득방법을 이해한다 - 간단한 테이블 또는 그래프에서 아주 복잡한 분석 결과까지 형태는 다양 - 자료획득방법으로는 총조사와 샘플량 조사가 있다 + 통계분석과 통계분석 방법을 이해한다 - 분석방법에는 기술통계와 통계적 추론으로 구분 + 확률 및 확률분포를 이해한다 + 추정과 가설검증을 이해한다 - 추정은 표본으로부터 모집단이 가지는 특성(모수)을 추측하는 것 - 가설검증은 자신이 가지는 이론적 대안이 통계적으로 의미가 있는지를 확인하는 것 1절. 통계분석의 이해 1) 통계 - 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 - 예 : 일기예보, 물가/실업률/GNP, 의식조사와 사회조사 분석 통계, 임상실험 통계 - 조사 또는 ..

728x90