본문 바로가기

ADsP(데이터 분석 준전문가)/문제풀이

[1. 데이터 이해] 오답노트

728x90

데이터의 이해 오답노트

1. 데이터는 형태에 따라 정성데이터, 정량데이터로 구분된다

- 정량 데이터 : 정형데이터, 객관적 내용, 통계분석이 용이

- 정성 데이터 : 비정형데이터, 주관적 내용, 통계분석이 어려움

 

2. 암묵지와 형시지의 상호작용 관계

- 공통화 > 표출화 > 연결화 > 내면화

- 공통화 : 암묵지를 타인에게 알려주기

- 표출화 : 암묵지를 책 등 형식지로 만들기

- 연결화 : 책 등에 자신이 아는 새로운 지식 추가

- 내면화 : 책 등을 보고 타인들이 암묵적 지식 습득

 

3. SQL은 다양한 집계함수를 제공

- COUNT는 어떠한 데이터의 타입에도 사용이 가능하다

 

4. 개인정보 비식별화 기법을 설명

- 가명처리 : 개인 식별이 가능한 데이터에 대하여 직접적으로 식별 할 수 없는 다른 값으로 대체

- 범주화 : 단일 식별 정보를 해당 그룹의 대표 값으로 변환

- 데이터 마스킹 : 식과 같은 속성을 유지한채, 새롭고 읽기 쉬운 데이터로 익명으로 생성하는 기술

- 총계처리 : 개별 데이터 값을 총합 또는 평균값으로 대체

 

5. 데이터에 대한 설명

- 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음

- 창의적인 데이터 매시업은 기존에 풀기 어려웠던 문제 해결에 도움

- 공공부문에서 개방하고 있는 대표적인 데이터는 교통데이터, 물가데이터, 의료데이터

- 반정형데이터는 데이터 내부에 메타 데이터를 갖고 있으며 일반적인 파일형태로 저장되는 것

 

6. 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정 > 표출화

 

7. 그 자체로는 의미가 중요하지 않은 객관적인 사실인 데이터를 가공 및 처리하여 얻을 수 있응 것 > 기호

- 정보 : 데이터의 가공, 초리와 데이터 간 연관관계 속 의미 도출

- 지식 : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜

고유의 지식으로 내재화된 것

- 지혜 : 지식의 축적과 아이디어가 결합된 창의적인 산물

 

8. 지식에 대한 예시로 적절

- A사이트 보다 B사이트가 다른 물건도 비싸게 팔 것이다 > 예측

- B사이트보다 가격이 상대적으로 저렴한 A사이트에서 USB를 사야겠다 > 지식

- A사이트는 10000원에, B사이트는 15000원에 USB를 팔고 있다 > 데이터

- B사이트의 USB판매가격이 A사이트보다 더 비싸다 > 정보

 

9. 글로벌 기업의 빅데이터 활용사례로 그 연결의 예시

- 구글 : 실시간 자동 번역시스템을 통한 의사소통이 불편해소

- 넷플릭스 : 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영

- 월마트 : 소셜 미디어를 통해 고객소비패턴을 분석하는 웰마트랩 운영

- 자라 : 일일 판매량을 실시간 데이터 분석으로 상품 수요 예측

 

10. 데이터베이스의 구성요소들을 설명

- 메타 데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터

- 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조

 

 

11.데이터웨어하우스는 기업 내의 의사결정지원 애플리케이션에 정보기반을 제공하는 하나의 통합된 데이터 저장공간.

데이터웨어하우스의 고유한 특성

- 데이터의 주제 지향성

- 데이터 통합 : 데이터웨어하우스의 데이터들은 전사적 차원에서 일관된 형식으로 정의

- 데이터의 시계열성 : 데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장한다

- 데이터의 비휘발성 : 데이터웨어하우스에서는 특정 주제에 따라 데이터들이 분류, 저장, 관리된다

 

12. 데이터 분석 기술에 대한 설명

- OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 기술

- Business Intelligence : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

- Business Analytics : 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

- Deep Learning : 다층구조 형태의 신경망을 바탕으로 하는 머신러닝의 한 분야

- Data Mining : 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용

 

13. 다음은 특정 산업의 일차원적 분석 사례를 나열한 것

- 트레이딩, 공급, 수요예측 > 에너지

 

14. 기업내부 데이터베이스인 고객관리(CRM)에 대한 설명

- 단순한 정보의 수집에서 탈피, 분석 중심의 시스템 구축 지향

- CRM은 기업이 고객과의 관계를 강화하고, 고객 경험을 개선하며, 비즈니스 성과를 향상시키는 데 중요한 역할

 

15. 데이터베이스를 기반으로 기업 내 구축되는 주요 정보시스템 > ERP

- ERP는 인사,재무,생산 등 기업의 전 부문에 걸쳐 독립적으로 운영된 각종 관리 시스템의 경영자원을 하나의 통합

시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법

 

16. 사회기반 구조로서의 데이터베이스에 대한 설명

- 물류,무역,조세 등 사회간접자본 차원에서 정보망을 통해 유통, 이용된 정보가 데이터베이스로 구축

- 지리, 교통 부문에서 데이터베이스가 보다 고도화되어 데이터베이스를 구축

- 인터넷의 보편화로 데이터베이스가 사회 전반의 인프라로 자리 매김

- 물류, 지리/교통, 의료, 교육 등 부문에서 구축되어 활용되고 있다

 

17.러셀 L.액오프가 1989년에 이야기한 DIKW Hierarchy는 데이터가 어떻게 진화하는 지를 단계적으로 설명

- 정보 : 데이터의 가공, 초리와 데이터 간 연관관계 속 의미 도출

- 지식 : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜

고유의 지식으로 내재화된 것

- 지난 1년 매출액의 50%8월에 집중되어 있다 > 정보

- 지난 1년 매출은 1월에서 8월까지 증가하였고, 12월까지 다시 증가하였다 > 정보

- 날씨가 따뜻해지고, 지점을 확장하여 올 8월 매출액은 3000만원으로 예상한다 > 지식

- 8A상품구매고객의 80%40대 여성고객으로 대부분 회사원이다

 

18. 일반적으로 통용되고 있는 빅데이터의 정의

- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규묘이 데이터다

- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속

수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐이다

- 빅데이터는 데이터의 양, 데이터 유형과 소스측면의 다양성, 데이터 수집과 처리 측면에서 속도가 급격히

증가하면서 나타난 현상이다

- 빅데이터는 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일

- 하둡은 빅데이터 플랫폼 환경 구축을 위해 사용할 뿐 빅데이터가 하둡을 기반으로 하는 것은 아니다

 

19. 빅데이터 활용에 필요한 기본적인 3요소

- 데이터 / 기술 / 인력

 

20.빅데이터 현상이 출현하게 된 배경

- 고객데이터의 축적과 거대 데이터의 활용이 늘어남으로 필요한 기술 아키텍쳐 및 통계 도구들의 발전,

모바일 혁명 등의 관련기술의 발달을 들 수 있다

- M2M, Iot와 같은 통신 기술의 발전

- 하둡 등 분산처리 기술의 발전

- 트워터, 페이스북 등 SNS의 급격한 확산

 

21. 빅데이터의 수집, 구축, 분석의 최종 목적

- 새로운 통찰과 가치를 창출

- 기존방식으로는 얻을 수 없었던 통찰 및 가치창출, 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도 이다

 

22. 빅데이터 기능 중 '공동 활용의 목적으로 구축된 유무형의 구조물 역할을 수행한다' 하는 것에 해당하는 것

- 플랫폼 : 비즈니스 측면에서 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미하며 빅데이터가

최근에는 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망

 

23. 빅데이터가 만들어 내는 변화

- 가치가 있을 것이라고 예상되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 한 많은 데이터를 모으고

그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식이 중요해 진다.

- 데이터의 규모가 증가함에 따라 사소한 몇 개의 오류 데이터는 분석결과에 영향을 미치지 않기 때문에

데이터세트에 포함하여 분석해도 상관없는 경우가 많아진다.

- 빅데이터의 등장으로 데이터 수집비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소

> 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는

방식으로 데이터 활용방법이 변화

- 인과관계의 규명 없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출할 수 있는

기회가 점차 늘어나고 있다.

 

24. 상품, 서비스, 기술 등의 기반 위에 다른 이해괸계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계

구축을 목표로 하는 비즈니스 모델

-> 플랫폼 비즈니스 모델

사회적 가치 기반형 비즈니스 모델 :

- 기업이 이윤을 창출하면서 동시에 사회적 문제에 대한 해결이나 개선에 기여하는 형태의 비즈니스

- 기업이 단순히 이윤 추구가 아니라 지속 가능한 사회적 가치 창출에 기여함으로써 긍정적인 영향

가치사슬 비즈니스 모델 :

- 기업이 제품 또는 서비스를 창출하기 위해 수행하는 활동들을 계층적으로 나타낸 모델

- 각 활동이 어떻게 서로 연결되어 가치를 창출하는지 이해하고, 이를 통해 기업이 비용을 최소화하고 가치를 최대화할 수 있는

방식을 찾도록 돕습니다

고객 중심형 비즈니스 모델:

- 기업이 고객의 요구와 만족을 중심으로 경영 활동을 설계하고 실행하는 비즈니스 모델

- 기업이 제품, 서비스, 경험 등을 개발하고 제공함에 있어서 고객의 필요와 기대를 최우선에 두는 전략을 강조

 

25. 데이터의 가치 측정이 어려운 이유

- 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발

> - 데이터 재사용의 일반화로 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문에

- 새로운 가치 창출

> - 빅데이터는 기존에 존재하지 않던 새로운 가치를 창출하기 때문

- 분석 기술 발전

> 분석기술의 발전으로 과거에 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문에

 

26. 사생활 침해를 막기 위해 개인정보를 무작위 처리하는 등 데이터가 본래 목적 외에 가공되고 처리되는 것을 방지 하는 기술

- 난수화>고객의 과거구매기록이나 나이,수입,건강정보와 같은 데이터가 해독이 불가능한 난수화를 통해 변경된 채로 기업에 전송된다

 

 

27. 감정분석에 대한 설명

- 특정 주제에 대한 사용자의 긍정,부정 의견을 분석한다

- 주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적 사례

- 사용자가 사용한 문장이나 단어가 분석 대상이 된다

 

- 소셜네트워크 분석 : 사용자간의 소셜 관계를 알아내고자 할때

 

28. 비즈니스 모델에서 빅데이터 분석 방법과 사레를 연결

- 연관규칙학습 : 변인들 간에 주목할 만한 상관관계가 있는지 찾는 방법

ex) 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가?

- 소셜네트워크분석 : 특정인과 다른사람이 몇촌 정도의 관계인가를 파악, 영향력 있는 사람을 찾을 때도 사용

ex) 친분관계가 승진에 어떤 영향을 미치는가?

- 회귀분석 : 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인 관계를 파락할 때

ex) 고객의 만족도가 충성도에 어떤 영향을 미치는가?

- 유형분석 : 문서를 분류하거나 조직을 그룹으로 나눌 떄, 또는 온라인 수강생들을 특성에 따라 분류할 때

ex) 이 사용자는 어떤 특성을 가진 집단에 속하는가?

 

29. 빅데이터 활용을 위한 기본 테크닉 중 어떤 사례인가

ex) A마트는 금요일 저녁에 맥주를 사는 사람은 기저귀도 함께 구매했다는 사실을 발견하고, 두 가지 상품을 가까운 곳에 진열

> 연관성 분석 : 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래또는 사건들 간의 규칙을 발견하기 위한 분석으로

흔히 장바구니 분석이 있다

 

30. 다음 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야 > 신용평가

- 신용평가는 투자자보호를 위하여 금융상품 및 신용공여 등에 대하여 그 원리금이 상환될 가능성과

기업,법인 및 간접투자기구 등의 신용도를 평가하는 행위이며 핀테크 분야에서 빅데이터 활용이 활발하게 이루어짐

 

31. 딥러닝과 관련된 분석 기법

- CNN : 합성곱 신경망은 주로 이미지 및 비디오와 같은 시각 데이터를 처리하고 분석하는 데 사용됩니다.

공간 데이터에서 패턴 및 특징을 인식

- LSTM : 장단기 메모리 네트워크는 시퀀스 및 시계열 데이터를 다루기 위해 설계된 순환 신경망(RNN)의 한 유형

- Autoencorder : 오토인코더는 비지도 학습을 위해 설계된 신경망 유형으로, 입력 데이터를 낮은 차원 공간으로 인코딩하고 이를

기반으로 원래 입력을 재구성하는 효율적인 표현을 학습

 

32. 딥러닝을 활용하기 위한 오픈소스

- Caffe : 주로 딥 러닝 모델을 빠르게 구현하고 학습시키기 위한 오픈 소스 딥 러닝 프레임워크

- Tensorflow : 구글에서 개발한 오픈 소스 기계 학습 및 딥 러닝 라이브러리입니다.

특히, 신경망 구축, 학습, 추론을 위한 강력한 도구와 자원을 제공

- Theano : 딥 러닝 연구를 위한 수치 계산을 효율적으로 수행하기 위한 오픈 소스 라이브러리

 

- Anaconda : Python프로그램의 머신러닝 기능을 강화해주는 소프트웨어

 

33. 빅데이터 시대에 발생할 수 있는 위기요인

- 데이터 오용

- 책임원칙 훼손

- 사생활 침해

 

34. 빅데이터 사생활 침해 문제를 해결하기 위한 방법

- 사생활 침해 문제를 해결하기 위해서는 동의에서 책임으로 변한되어야 한다

> 정보 사용자 책임제로 변환

문제 해결

- 데이터 오용 > 알고리즘 허용

- 책임원칙 훼손 > 결과기반 책임 원칙 고수

 

35. 빅데이터 시대의 위기와 통제에 대한 설명

- 빅데이터 분석은 일어난 일에 대한 데이터에 의존하므로 예측의 정확도는 높지만 항상 맞을 수는 없어 데이터 오용의 피해가

발생할 수 있다

- 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하며 해결해 주는 알고리즈미스트도 새로운 직업으로 부상하게 될 것이다

- 개인정보 사용자의 정보사용에 대한 무한책임의 한계로 개인정보 사용 동의제보다 책임제로 더욱 강화시켜야 한다

- 민주주의 국가의 형사 처벌과 같이 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻기 때문에 빅데이터 사전성향

분석을 실시한다면 책임원칙을 훼손한다

 

36. 데이터화 현상에 큰 영향을 미치는 기술

- 사물인터넷 (IOT) : 인터넷을 기반으로 모든 사물을 연결해 사람과 사물, 사물과 사물간의 정보를 상호소통하는 지능형 기술 및

서비스이며, 사물에서 생성되는 Data를 활용분석을 통해 마케팅 등에 활용가능

 

37. 데이터베이스 관리 시스템

- 관계형 DBMS : 테이블 형식의 데이터 구조를 사용하여 데이터를 저장하고 관리하는 시스템입니다.

데이터는 행과 열로 이루어진 테이블에 저장되며, 테이블 간의 관계를 통해 데이터에 접근 및 관리

- 객체지향 DBMS : 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리

데이터는 객체로 표현되며, 이러한 객체는 속성과 메서드를 가질 수 있습니다

- 네트워크 DBMS : 데이터를 그래프 형식으로 표현하고 저장 /레코드는 서로 연결된 노드로 이루어진 네트워크 형태를 가지며,

데이터 간의 복잡한 관계를 다룰 수 있습니다

- 계층형 DBMS : 데이터를 트리 구조로 표현합니다. 상위 레코드와 하위 레코드 간의 계층 구조를 가지며, 부모-자식 관계가 중요

 

38. 데이터 사이언스는 데이터 처리와 관련된 IT영역, 분석적영역, 그리고 비즈니스 컨설팅영역을 포괄.

- 데이터 시각화 (비즈니스 컨설팅)

- 데이터 웨어하우징 (IT영역)

- 분산 컴퓨터 (IT영역)

- 파이썬 프로그래밍 (IT영역)

 

39. 데이터 사이언스에서 인문학적 사고는 반드시 필요한 요소. 인문학 열풍을 가져오게 한 외부환경요소

- 디버전스 동역학이 작용하는 복잡한 세계화

- 비즈니스 중심이 제품생산에서 체험경제를 기초로 한 서비스로 이동

- 경제의 논리가 생산에서 최근 패러다임인 시장 창조로 변화

 

40. 빅데이터를 다각적으로 분석하여 인사이트를 도출하는 데이터 사이언티스트의 필요 역량

- 통찰역 있는 분석 능력

- 다분야 간 커뮤니케이션,협력

- 빅데이터에 대한 이론적 지식

- 분석 기술에 대한 숙련

- 설득력 있는 전달

 

41. 데이터 사이언스에 대한 설명

- 데이터 사이언스는 데이터로부터 의미있는 정보를 추출하는 학문

- 정형데이터 뿐만 아니라 다양한 데이터를 대상으로 한다

- 기존의 통계학과는 달리 총제적 접근법을 사용

- 분석의 정확성에 초점을 두는 것이 아닌 통찰력 있는 분석에 초점을 두고 진행한다

 

43.

데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인

(하드)Skil 과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 (소프트)skil 로 나누어진다.

 

44.

정보는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료가 된다

 

45. 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을

데이터웨어하우스 라고 한다

 

46.

지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다.

전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다.

다시 말해 별도로 정제되지 않은 자연 스러운 상태의 아주 큰 데이터 세트인 ( 데이터 레이크 )/를 기업들이 구현하는 것은

2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

1. 데이터 무결성

- 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것

- 무결성제한의 유형 : 개체 무결성, 참조 무결성, 범위 무결성

2. 데이터 레이크

- 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

- 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소

- Hadoop, Teradata 등과 같은 플랫폼으로 구성된 솔루션을 제공

 

47.

(정량적) 데이터는 지역별 매출액, 영업이익률, 판매량과 같이 수치로 명확하게 표현되는 데이터로,

그 양이 크게 증가하더라도 이를 DBMS 에 저장, 검색, 분석하여 활용하기가 용이하다.

 

48.

( SCM )은 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로,

자재 구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성된다.

SCM(Supply Chain Management - 공급망 관리)

> 제품 또는 서비스가 생산자에서 소비자에 이르기까지의 모든 단계에서 자원을 효과적으로 계획, 조직, 감시하고 관리하는 활동의 집합을 의미

 

49.

) 페이스북은 2006F8 행사를 기점으로 자신들의 소셜 그래프 자산을 외부 개발자들 에게 공개하고 서드파티 개발자들이

페이스북 위에서 작동하는 앱을 만들기 시작하면 서(플랫폼) 역할을 하기 시작했다.

) 하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 ( 플랫폼 ) 기술이며,

선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다 아마존(Amazon)S3 BC2 환경을 제공함으로써 (플랫폼)()

위한 클라 우드 서비스를 최초로 실현하였다.

플랫폼 : 비즈니스 측면에서 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미

 

50.

) 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)1975년에 개발하였다.

) '최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때사용된다.

) 어떤 미지의 함수 Y=(x)를 최적화하는 해 x를 찾기 위해, 진화를 모방한(Simulated Evolution) 탐색 알고리즘이라고 말할 수 있다.

> 유잔자 알고리즘

> 유전자 알고리즘과 빅데이터 기술은 데이터를 기반으로 한 의사 결정을 향상시키는 데 협력할 수 있습니다. 빅데이터는 유전자 알고리즘에 필요한 정보를 제공하고, 유전자 알고리즘은 최적의 솔루션을 찾는 데 도움을 줄 수 있습니다.

728x90