본문 바로가기

728x90

분류 전체보기

(127)
[표준조인] 1. 관계형 대수의 분류 - 8가지 중 4가지는 일반집합연산자, 나머지4가지는 순수관계연산자 2. 일반집합연산자와 SQL의 비교 - 일반집합연산자는 SQL문의 UNION/ UNION ALL/ INTERSECT / EXCEPT /CROSS JOIN 기능으로 구현 - 일반집합연산자가 SQL문에서 어떤 기능을 구현하는지 정리 UNION 연산 > UNION 기능으로 구현 - UNION연산은 수학적으로 합집합을 하는 연산 - 교집합의 중복을 제거하는 연산을 수행 > 시스템과부화 발생 가능성 - UNION ALL연산은 교집합의 중복을 제거하지 않고 중복된 것을 그대로 보여줌 - UNION과 UNION ALL의 출력결과가 같다면 UNION ALL을 권장 INTERSECTION 연산 > INTERSECT 기능으로 구현..
[3-3. 데이터 마트] 1. 데이터 변경 및 요약 3장 데이터 마트 학습목표 • 데이터 마트를 구성하는 요약변수와 파생변수를 구분할 수 있다. - 데이터 마트를 구성할 때 가장 중요한 부분 중 하나가 요약변수와 파생변수를 생성하 는 부분 - 요약변수 : 데이터를 특정 기준에 따라 사칙연 산을 통해 만들어 낸 변수 - 파생변수 : 사용자의 노하우를 기반으로 새롭게 만들 어 낸 변수 • reshape 패키지를 활용하여 데이터 마트를 생성할 수 있다. - reshape 패키지는 데이터 마트를 생성할 수 있도록 데이터를 녹이고(melt) 다시 형상화(cast)할 수 있는 R 패키지로, 분석용 마트 설계에서 잘 활용 • sqldf 패키지와 plyr 패키지를 활용하여 데이터를 핸들링할 수 있다. - R 프로그램에서도 SQL을 사용하기 위해 sqldf라는 패키지를 ..
[3-2. R프로그래밍 기초] 오답노트 R 프로그래밍 기초 1. 벡터에 대한 설명 - 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합 - 한 벡터의 모든 원소는 같은 자료형(숫자 또는 문자)으로 구성된다 - 백터는 1차원 구조이다 - 벡터는 행렬 구조로 나타나지 않는다 2. 벡터 xy에 대한 설명 x
[3-2. R프로그래밍 기초] 2장 R프로그래밍 기초 학습목표 - 데이터 분석 환경을 이해한다 - 데이터 분석 도구 R의 특성을 이해한다 - R을 설치하고 GUI를 이해한다 / R Studio를 설치하고 GUI를 이해한다 1절. R 소개 (1) 데이터 분석 도구의 현황 1. R의 탄생 - R은 오픈소스 프로그램으로 통계/데이터마이닝과 그래프를 위한 언어이다 - 다양한 최신 통계분석과 마이닝 기능을 제공한다 - 다양한 기능을 지원하는 많은 패키지가 수시로 업데이트 된다 2. 분석도구의 비교 3. R의 특징 1) 오픈소스 프로그램 - 사용자가 커뮤니티에 도움 요청이 쉽다. - 많은 패키지가 수시로 업데이트 된다. 2) 그래픽 및 성능 - 프로그래밍이나 그래픽 측면 등 대부분의 주요 특징들에서 상용 프로그램과 대등하거나 월등하다 3) 시스..
[3-1. 데이터 분석 개요 ] 오답노트 1. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방법 정답 : 탐색적자료분석(EDA) (다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정) 2. 데이터 마이닝의 모델링에 대한 설명 - 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다 - 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행 - 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시한다 - 성능에 집착하면 분석 모델링의 주목적인 실무 적용에 반하여 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없..
[3-1. 데이터 분석 개요 ] 데이터 분석 개요 학습목표 - 데이터 처리 프로세스를 이해한다 - 데이터 분석 기법 중 시각화를 이해한다 - 데이터 분석 기법 중 공간분석을 이해한다 - 데이터 분석 기법 중 탐색적 자료 분석을 이해한다 눈높이 체크 1. 데이터 분석을 위해 데이터 마트 - 데이터 분석을 위해 데아터웨어하우스(DW)나 데이터마트(DM)에서 데이터 추출 - 운영시스템에서 데이터를 추출하여 분석용 데이터 구성 2. 데이터 분석 방법 중 시각화 - 데이터를 도표나 그림으로 한눈에 분석내용을 인지할 수 있는 데이터 분석기법 - 가장 낮은 수준의 분석 - 복잡한 분석보다 더 효율적으로 인사이트 얻음 - 빅데이터 분석에서 필수적인 분석 방법 3. 데이터 분석 방법 중 공간분석 - 공간적 차원과 관련된 속성을 지도 위에 시각화하여 인..
[2. 데이터 분석 기획] 오답노트 1. 분석의 대상 과 분석의 방식에 따라 4가지로 분류 - 대상을 알고, 방식을 알면 최적화(optimization) - 대상을 알고, 방식을 모르면 solution - 대상을 모르고, 방식을 알면 통찰(insight) - 대상을 모르고, 방식을 모르면 discovery 2. 분석대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용하여 (통찰)을 도출해냄으로써 문제의 도출 및 해결에 기여하거나 (발견) 접근법으로 분석 대상 자체를 새롭게 도출할 수 있다 3. 분석 기획 고려사항 중 장애요소에 대한 설명 - 비용대비 효과의 적정한 비용 - 분석 모형의 안정적 성능 확보 - 조직 역략으로 내재화를 위한 변화 관리 4. 성공적인 분석을 위해서 고려햐야 할 요소 - 관련 데이터의 파악 -> 분석의 기..
[2-2. 분석 마스터 플랜] 2. 분석 거버넌스 체계 수립 1. 거버넌스 체계 1) 개요 - 기업에서 데이터를 이용한 의사결정이 강조될수록 데이터 분석과 활용을 위한 체게적인 관리가 중요 - 어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인가가 중요 - 조직 내 분석관리체계를 수립해야 하는 이유는 데이터 분석을 기업의 문화로 정착하고 데이터 분석업무를 지속적으로 고도화하기 위해서이다 2) 구성요소 - 마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계는 분석기획 및 관리를 수행하는 조직, 과제기획 및 운영프로세스, 분석관련 시스템, 데이터, 분석관련 교육 및 마인드 육성체계로 구성 2. 데이터 분석 수준집단 1) 개요 - 기업들은 데이터 분석의 도입여부와 활용에 명확한 분석수준을 점검할 필요가 있다 - 데이터분석의 수준집단을..
[2-2. 분석 마스터 플랜] 1. 마스터 플랜 수립 프레임 워크 출제 포인트 : 분석과제들의 우선순위 기준, 우선순위 평가기준, 우선순위 설정방법, 이행계획수립방법이 중요 학습목표 - 데이터 분석을 위한 마스터 플랜수립을 이해한다 - 분석과제의 시급성과 난이도에 따른 분석과제 우선순위를 선정 할 수 있다 - 데이터 분석 거버넌스 체계를 이해한다 - 데이터 분석 조직구조와 교육내용을 이해한다 데이터분석을 위한 마스터 플랜 수립이 필요한 이유 > 데이터분석을 구현하기 위한 다양한 기준들을 통해 데이터 분석을 위한 로드맵 수립 분석과제의 우선순위 선정 > 비즈니스 관점에서 도출된 다양한 분석과제들을 기업에 적용시키기 위해서는 적용 우선순위를 평가해야 함 데이터 분석 거버넌스 체계가 필요한 이유 > 분석 거버넌스 체계를 통하여 기업의 현 분석수준을 정확히 진단하고 분석 조직..
[2-1. 데이터 분석 기획의 이해] 4. 분석 프로젝트 관리 방안 1. 분석과제 관리를 위한 5가지 주요 영역 - 분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행 될 뿐만 아니라 - 다양한 데이터에 기반한 분석기법을 적용하는 특성 때문에 5가지 주요 속성을 고려한 추가적인 관리가 필요 - 5가지 영역 1. Data Size : 분석하고자 하는 데이터의 양, 하둡 환경과 기존 정형 데이터베이스 환경에서의 시간 당 생성되는 데이터 분석의 관리방식에서 차이가 남 2. Data Complexity : 잘 적용될 수 있는 분석 모델의 선정 3. Speed : 시나리오 측면에서의 속도, 분석 모델의 성능 및 속도를 고려한 개발 4. Analytic Complexity : 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델, 분석 모델의 정확도와 복잡도..

728x90