본문 바로가기

ADsP(데이터 분석 준전문가)/개념정리

[2-1. 데이터 분석 기획의 이해] 2. 분석 방법론

728x90

<분석 방법론>
- 데이터 분석 방법론을 정의할 때 반드시 필요한 내용인 절차, 방법, 도구와기법, 템플릿과 산출물을 기억
- 적용업무의 특성에 따른 모델들도 기억

1. 분석 방법론 개요
1) 개요
- 데이터 분석이 효과적으로 기업내에 정착하기 위해선 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수
- 프로젝트는 개인의 역량이나 조직의 우연한 성공에 기인X
- 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야함
방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&Outputs)로 구성

2) 데이터 기반 의사결정의 필요성
- 경험과 감에 따른 의사결정 -> 데이터 기반의 의사결정
- 기업의 합리적 의사결정을 가로막는 장애요소
    -고정관념(Stereotype) 
    -편향된 생각(Bias)
    -프레이밍 효과(Framing Effect: 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상)

3) 방법론의 생성과정
암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러 나지 않는 지식 / 김치 담그기, 자전거 타기 / 사회적으로 중요하지 만 다른 사람에게 공유 되기 어려움 / 공통화,내면화
형식지 : 문서나 매뉴얼처럼 형상화된 지식  /   교과서, 비디오, DB  /   전달과 공유가 용이함    /   표출화,연결화

4) 방법론의 적용 업무의 특성에 따른 모델 
가) 폭포수 모델(Waterfall Model)
    - 단계를 순차적으로 진행하는 방법
    - 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며, 문제가 발견될 시 피드백 과정이 수행(기존 IT의 SW 개발 방식)


나) 프로토타입 모델(Prototype Model)
    - 폭포수 모델의 단점을 보완
    - 점진적으로 시스템을 개발
    - 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공
    - 시험 사용 후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능 평가하여 그 결과를 통한 개선 작업을 시행


다) 나선형 모델(Spiral Model)
    - 반복을 통해 점증적으로 개발하는 방법
    - 처음 시도하는 프로젝트에 적용이 용이하나, 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음

 

5) 방법론의 구성   
가) 단계
    - 최상위 계층으로서 프로세스 그룹을 통하여 완성된 단 계별 산출물이 생성된다
    - 각 단계는 기준선으로 설정되 어 관리되어야 하며, 버전관리 등을 통하여 통제된다
    - 단계별 완료 보고서
나) 태스크 
    - 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 된다
    - 보고서
다) 스탭
    - WBS(Work Breakdown Structure)의 워크 패키지 (Work Package)에 해당
    - 입력자료(Input), 처리 및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스이다
    - 보고서 구성요소


2. KDD 분석 방법론
1) 개요 
- KDD(Knowledge Discovery in Database)는 프로파일링 기술을 기반으로 데이터로부터 통계젇 패턴이나 지식을 찾기위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터시각화 등에서 응용 될 수 있는 구조

2) KDD 분석 절차


1. 데이터 셋 선택 (Selection)
- 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
- 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다
- 데이터마이닝에 필요한 목표데이터를 구성하여 분석에 활용한다

2. 데이터 전처리 (Preprocessing)
- 추출된 분석 대상용 데이터 셋에 포함되는 잡음과 이상치, 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계이다
- 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행한다

3. 데이터 변환 (Transformation)
- 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터에 변경하는 단계
- 데이터마이닝 프로세스를 진행하기 위해 학습용 데이터와 실험용 데이터로 데이터를 분리하는 단계 

4. 데이터 마이닝 (Data Mining)
- 학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계
- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출한다

5. 데이터 마이닝 결과 평가 (Interpretation/Evaluation)
- 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성을 확인한다
- 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계
- 필요에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스를 반복 수행한다


3. CRISP-DM 분석 방법론
1) 개요 
- CRISP-DM (Cross Industry Standard Process for Data Mining) 유렵연합의 ESPRIT에서 시작되었으며, 주요한 5개의 업체들이 주도
- 계층적 프로새스 모델로써 4개 레벨로 구성

2) CRISP-DM의 4레벨 구조
- 최상위 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다
- 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크로 구성된다 
- 예를 들어 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다
- 마지막 레벨인 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함한다

3) CRISP-DM의 프로세스
- CRISP-DM 프로세스는 6단계로 구성
- 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다


1 - 업무 이해 (Business Understanding)
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
- 수행업무 : 업무목적파악, 상황파악, 테이터마이닝 목표설정, 프로젝트 계획수립

2 - 데이터 이해 (Data Understanding)
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
- 수행업무 : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품직확인

3 - 데이터 준비 (Data Preparation)
- 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계 (많은 시간이 소요 될 수 있음)
- 수행업무 : 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅

4 - 모델링 (Modeling)
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복수행할 수 있으며, 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인
- 수행업무 : 모델링 기법선택, 모델 테스트 계획설계, 모델작성, 모델평가

5 - 평가 (Evaluation)
- 모델링 결과가 프로젝트 목적에 부합하는지 평가
- 데이터마이닝 결과를 최종적으로 수용 할 것인지 판단
- 수행업무 : 분석결과 평가, 모델링 과정평가, 모델 적용성 평가

6 - 전개 (Deployment)
- 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
- 모니터링과 모델의 유지보수 계획마련 -> 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명주기가 다양하므로 상세한 전개 계획이 필요
- CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리

4. KDD와 CRISP-DM의 비교

 

5. 빅데이터 분석 방법론

1) 빅데이터 분석의 계층적 프로세스

1 - 단계 (Phase)

- 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성

- 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통하여 통제가 이루어져야 한다

2 - 태스크 (Task)

- 각 단계는 여러 개의 태스크로 구성

- 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있다

3 - 스텝 (Step)

- WBS(Work Breakdown Structure)의 워크패키지에 해당되고

입력자료(Input), 처리 및 도구, 출력자료(Ouput)로 구성된 단위 프로세스이다

 

2) 빅데이터 분석 방법론 - 5단계

1단계 분석기획(Planning) : 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계

2단계 데이터준비(Preparing) : 비즈니스 요구사항과 데이터 분석에 필요한 원천데이터를 정의하고 준비하는 단계

3단계 데이터분석(Analyzing) : 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여

데이터를 분석하는 단계. 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한

경우 데이터 준비단계로 피드백하여 두 단계를 반복하여 진행

4단계 시스템 구현(Developing) : 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템

개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다

5단계 평가 및 전개(Deploying) : 데이터 분석 및 시스템 구현 단계를 수행한 후, 프로젝트의 성과를 평가하고 정리하거나

모델의 발전계획을 수립하여 차기 분석기획으로 전달하고 프로젝트를 종료하는 단계

 

728x90