본문 바로가기

ADsP(데이터 분석 준전문가)/개념정리

[3-1. 데이터 분석 개요 ]

728x90

데이터 분석 개요
학습목표
- 데이터 처리 프로세스를 이해한다
- 데이터 분석 기법 중 시각화를 이해한다
- 데이터 분석 기법 중 공간분석을 이해한다
- 데이터 분석 기법 중 탐색적 자료 분석을 이해한다 

눈높이 체크
1. 데이터 분석을 위해 데이터 마트
- 데이터 분석을 위해 데아터웨어하우스(DW)나 데이터마트(DM)에서 데이터 추출
- 운영시스템에서 데이터를 추출하여 분석용 데이터 구성
2. 데이터 분석 방법 중 시각화 
- 데이터를 도표나 그림으로 한눈에 분석내용을 인지할 수 있는 데이터 분석기법
- 가장 낮은 수준의 분석
- 복잡한 분석보다 더 효율적으로 인사이트 얻음
- 빅데이터 분석에서 필수적인 분석 방법
3. 데이터 분석 방법 중 공간분석 
- 공간적 차원과 관련된 속성을 지도 위에 시각화하여 인사이트를 얻는 방법
4. 데이터 분석 방법 중 탐색적 자료분석
- 다양한 차원과 값을 조합해 특이한 점이나 의미있는 사실을 도출하는 분석
- 변수의 특징과 변수들 간의 관계를 탐색하는 분석 방법

데이터 분석 기법의 이해 
1. 데이터 처리
1) 개요 : 데이터 분석은 통계에 기반을 두고 있지만, 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야
2) 활용
- 데이터웨어하우스(DW)와 데이터마트(DM)을 통해 분석 데이터를 가져와 사용
- 신규시스템/DW에 포함되지 못한 자료의 경우 기존 운영시스템(Legacy)이나 스테이징 영역(Staging Area)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용
- 운영시스템에 직접 접근해 데이터를 활용하는 것은 매우 위험하므로 거의 이루어지지 않음
- 스테이징 영역(Staging Area)의 데이터는 운영시스템에서 임시로 저장된 데이터이기 때문에 가급적 클렌징 영역인 ODS에서 데이터 전처리를 해서 DW나 DM과 결합하여 활용
3) 최종 데이터 구조로 가공
(1) 데이터마이닝 분류
- 분류값과 입력변수들을 연관시켜 인구통계, 요약변수, 파생변수등 산출
(2) 정형화된 패턴 처리
- 비정형 데이터/소셜 데이터는 정형화한 패턴으로 처리
- 비정형 데이터 : DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터마트와 통합
- 관계형 데이터(소셜 데이터) : DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값이 데이터마트와 통합되어 활용

2. 시각화 (시각화 그래프)
- 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다
- 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다
- 탐색적 분석을 할 때 시각화는 필수이다
- SNA분석(사회연결망 분석)을 할 때 자주 활용한다

3. 공간분석(GIS)
- 공간분석(Spatial Analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석이다
- 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다

4. 탐색적 자료 분석(EDA)
1) 개요
탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칠이다
- 프린스톤 대학 튜키교수의 1977년 저서 발표로 EDA 등장
2) EDA의 4가지 주제
- 저항성 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
3) 탐색적 분석의 효율 예
- 데이터이해 단계(변수 분포와 특성 파악)
- 변수생성 단계(분석목적에 맞는 주요한 요약/파생변수 생성)
- 변수선택 단계(목적변수에 의미있는 후보 변수 선택) 에서 활용

5. 통계분석
1) 통계 : 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것
2) 기술통계 (Descriptive Statistics)
: 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 
  하나의 숫자 또는 그래프 형태로 표현하는 절차
3) 추측(추론)통계(Inferential Statistics)
: 모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
4) 활용분야
- 정부의 경제정책 수립과 평가의 근거자료로 활용 ex) 통계청의 실업률, 고용률, 물가지수
- 농업 ex) 가뭄, 수해, 병충해 등에 강한 품종 개발 및 개량
- 의학 ex) 의학적 치료 방법의 효과, 신약 개발을 위한 임상실험 결과분석
- 경영 ex) 제품 개발, 품질관리, 시장조사, 영업관리
- 스포츠  ex) 선수들의 체질향상 및 개선, 경기 분석 및 전략분석, 선수평가와 기용

6. 데이터 마이닝
1) 개요
- 대표적인 고급 데이터 분석법으로 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법

2) 방법론
- 데이터베이스에서의 지식 탐색 : 데이터웨어하우스에서 데이터마트를 생성하면서 각 데이터들의 속성을 사전분석을 통해 지식을 얻는 방법
기계학습(Machine Learning) : 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야 ex) 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM
- 패턴인식(Pattern Recognition) : 원자료를 이용해서 사전지식과 패턴에서 추출된 통계 정보를 기반으로 자료 또는 패턴을 분류하는 방법 ex) 장바구니 분석, 연관규칙 등

3) 활용분야 
- 데이터베이스 마케팅 ex) 방대한 고객의 행동정보를 활용한 목표 마케팅, 고객세분화, 장바구니분석, 추천시스템
- 신용평가 및 조기경보시스템  ex) 금융기관에서 신용카드 발급, 보험, 대출 발생시 업무 적용
- 생물정보학 : ex) 세포의 수많은 유전자를 분석하여 질병의 진단 및 치료법 또는 신약 개발
- 텍스트마이닝 : ex) 전자우편, SNS 등 디지털 텍스트 정보를 통해 고객성향분석, 감성분석, 사회관계망분석 등
  (텍스트 마이닝:비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스)



728x90