1. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방법
정답 : 탐색적자료분석(EDA)
(다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정)
2. 데이터 마이닝의 모델링에 대한 설명
- 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다
- 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행
- 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시한다
- 성능에 집착하면 분석 모델링의 주목적인 실무 적용에 반하여 시간을 낭비할 수 있으므로
훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단한다
3. 모델링 성능을 평가함에 있어, 데이터마이닝에서 활용하는 평가 기준
- 데이터 마이닝에서는 정확도, 정밀도, 디텍트 레이트, 리프트 등의 값으로 판단
- 시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Length, Time in System 등의 지표가 활용된다
4. 탐색적 데이터 분석의 목적은 데이터를 이해하는 것이다. 이에 대한 설명
- 데이터에 대한 전반적인 이해를 통해 분석가능한 데이터 인지 확인하는 단계이다
- 탐색적 데이터 분석 과정은 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정이다
- 알고리즘이 학습을 얼마나 잘 하느냐 하는 것은 전적으로 데이터의 품질과 데이터에 담긴 정보량에 달려 있다
- 데이터를 시각화하는 것으로 이상점(Outlier)식별이 된다
> 상자그림(Box Plot)등을 그리면 이상치를 식별하기 쉽다
5. 아래 그림은 데이터 처리 구조를 나타낸다. 이에 대한 설명
- 데이터 분석에 활용하기 위해 데이터웨어하우스와 데이터마트에서 데이터를 가져온다
- ODS는 운영데이터저장소로 기존 운영시스템의 데이터가 정제된 데이터이므로 DW나 DM과 결합하여 분석에 활용할 수 있다
- 스테이지 영역에서 가져온 데이터는 정제되어 있지 않기 떄문에 데이터를 전처리해서 DW나 DM과 결합하여 사용한다
- 신규 시스템이나 스테이징 영역의 데이터는 정제되지 않았기 때문에 정제하고 DW나 DM과 결합해야 한다
6. 최근 시각화 기법의 활용이 높아지면서 데이터의 특성을 파악하는데 많은 기여를 하고 있다. 최근의 시각화의 발전된 형태
- 텍스트 마이닝에서의 워드 클라우드를 통한 그래프화
- SNA(Social Network Analysis)에서 집단의 특성과 관계를 그래프화
- Polygon, Heatmap, Mosaic Graph 등의 그래프 작업
7. 대표적인 고급분석으로 데이터에 있는 패턴을 파악해 예측하는 분석으로 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 분석 -> 테이터 마이닝 (대용량 데이터에서 패턴을 파악해서 예측하는 분석방법)
8. 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계
-> 추론 통계
9. EDA의 4가지 주제
- 저항성 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
10. 공간적 차원과 관련된 속성들을 시각화에 추론하여 지도위에 관련 속성들을 생성하고
크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는 분석방법 > 공간 분석 (S[atial analysis])
'ADsP(데이터 분석 준전문가) > 문제풀이' 카테고리의 다른 글
[3-4. 통계분석] 1~18번 문제풀이 (1) | 2024.01.10 |
---|---|
[3-3. 데이터마트] 오답노트 (1) | 2024.01.10 |
[3-2. R프로그래밍 기초] 오답노트 (2) | 2024.01.02 |
[2. 데이터 분석 기획] 오답노트 (1) | 2024.01.01 |
[1. 데이터 이해] 오답노트 (1) | 2024.01.01 |