본문 바로가기

ADsP(데이터 분석 준전문가)/문제풀이

[3-1. 데이터 분석 개요 ] 오답노트

728x90

1. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방법
정답 : 탐색적자료분석(EDA) 
(다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정)

2. 데이터 마이닝의 모델링에 대한 설명
- 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다
- 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행
- 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시한다
- 성능에 집착하면 분석 모델링의 주목적인 실무 적용에 반하여 시간을 낭비할 수 있으므로 
  훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단한다

3. 모델링 성능을 평가함에 있어, 데이터마이닝에서 활용하는 평가 기준
- 데이터 마이닝에서는 정확도, 정밀도, 디텍트 레이트, 리프트 등의 값으로 판단
- 시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Length, Time in System 등의 지표가 활용된다

4. 탐색적 데이터 분석의 목적은 데이터를 이해하는 것이다. 이에 대한 설명
- 데이터에 대한 전반적인 이해를 통해 분석가능한 데이터 인지 확인하는 단계이다
- 탐색적 데이터 분석 과정은 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정이다
- 알고리즘이 학습을 얼마나 잘 하느냐 하는 것은 전적으로 데이터의 품질과 데이터에 담긴 정보량에 달려 있다
- 데이터를 시각화하는 것으로 이상점(Outlier)식별이 된다
  > 상자그림(Box Plot)등을 그리면 이상치를 식별하기 쉽다

5. 아래 그림은 데이터 처리 구조를 나타낸다. 이에 대한 설명
- 데이터 분석에 활용하기 위해 데이터웨어하우스와 데이터마트에서 데이터를 가져온다
- ODS는 운영데이터저장소로 기존 운영시스템의 데이터가 정제된 데이터이므로 DW나 DM과 결합하여 분석에 활용할 수 있다
- 스테이지 영역에서 가져온 데이터는 정제되어 있지 않기 떄문에 데이터를 전처리해서 DW나 DM과 결합하여 사용한다
- 신규 시스템이나 스테이징 영역의 데이터는 정제되지 않았기 때문에 정제하고 DW나 DM과 결합해야 한다

6. 최근 시각화 기법의 활용이 높아지면서 데이터의 특성을 파악하는데 많은 기여를 하고 있다. 최근의 시각화의 발전된 형태
- 텍스트 마이닝에서의 워드 클라우드를 통한 그래프화
- SNA(Social Network Analysis)에서 집단의 특성과 관계를 그래프화
- Polygon, Heatmap, Mosaic Graph 등의 그래프 작업

7. 대표적인 고급분석으로 데이터에 있는 패턴을 파악해 예측하는 분석으로 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 분석 ->  테이터 마이닝 (대용량 데이터에서 패턴을 파악해서 예측하는 분석방법)

8. 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계
-> 추론 통계 

9. EDA의 4가지 주제
- 저항성 강조
- 잔차 계산
- 자료변수의 재표현 
- 그래프를 통한 현시성

10. 공간적 차원과 관련된 속성들을 시각화에 추론하여 지도위에 관련 속성들을 생성하고 
    크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는 분석방법  > 공간 분석 (S[atial analysis])

728x90