2장 R프로그래밍 기초
학습목표
- 데이터 분석 환경을 이해한다
- 데이터 분석 도구 R의 특성을 이해한다
- R을 설치하고 GUI를 이해한다 / R Studio를 설치하고 GUI를 이해한다
1절. R 소개
(1) 데이터 분석 도구의 현황
1. R의 탄생
- R은 오픈소스 프로그램으로 통계/데이터마이닝과 그래프를 위한 언어이다
- 다양한 최신 통계분석과 마이닝 기능을 제공한다
- 다양한 기능을 지원하는 많은 패키지가 수시로 업데이트 된다
2. 분석도구의 비교
3. R의 특징
1) 오픈소스 프로그램
- 사용자가 커뮤니티에 도움 요청이 쉽다.
- 많은 패키지가 수시로 업데이트 된다.
2) 그래픽 및 성능
- 프로그래밍이나 그래픽 측면 등 대부분의 주요 특징들에서 상용 프로그램과 대등하거나 월등하다
3) 시스템 데이터 저장 방식
- 각 세션 사이마다 시스템에 데이터셋을 저장하므로 매번 데이터를 로딩할 필요가 없고 명령어 스토리도 저장가능하다
4) 모든 운영체제
- 원도우, 맥, 리눅스 운영체제에서 사용 가능하다
5) 표준 플랫폼
- S 통계언어를 기반으로 구현
- R/S 플래폼은 통계전문가들의 사실상의 표준 플랫폼이다
6) 객체지향언어이며 함수형 언어
- 통계기능뿐만 아니라 일반 프로그램밍 언어처럼 자동화거나 새로운 함수를 생성하여 사용 가능하다
- 객체 지향 언어의 특징
· SAS, SPSS에서 회귀분석시 화면에 결과가 산더미로 나오게 된다.
분석결과를 활용하기 위해서는 추가로 프로그래밍을 하거나 별도의 작업이 필요하다
· R은 추정계수, 표준오차, 잔차(관측값과 회귀직선의 예측값과의 차이) 등 결과값을 객체에 저장하여 필요한 부분을
호출하여 쉽게 활용 가능하다
- 함수형 언어의 특징
· 더욱 깔끔하고 단축된 코드
· 매우 빠르 코드 수행 속도
· 단순한 코드로 디버깅 노력 감소
· 병렬 프로그래밍으로의 전환이 더욱 용이
4. R Studio
- 오픈소스이며 다양한 운영체계를 지원한다
- R Studio는 메모리에 변수가 어떻게 되어 있는지와 타입이 무엇인지를 볼수 있고, 스크립트 관리와 도큐먼테이션이 편리하다
- 코딩을 해야하는 부담이 있으나 스크립트용 프로그래밍으로 어렵지 않게 자동화가 가능하다
- 래틀(Rattle)은 GUI가 패키지와 긴밀하게 결합되어 있어 정해진 기능만 사용 가능해 업그레이드가 제대로 되지 않으면 통합성에 문제가 방생할 수 있다
5. R 기반의 작업 환경
- 작업환경은 업무 규모와 본인에게 익숙한 환경이 무엇인지를 기준으로 선택한다
- 기업환경에서는 64bit환경의 듀얼코드, 32GB RAM, 2TB 디스크, 리눅스 운영체제를 추천한다
- R의 메모리 > 64bit 유닉스 환경: 메모리 무제한 / x84 64bit 환경 : 128TB까지 지원 / 64bit 원도우 환경 : 8TB까지
2절. R의 기초 - 1
학습목표
- R GUI(graphical user interface)를 실행하여 프로그래밍을 할 수 있다
- R프로그램을 활용하기 위한 GUI 중 R Studio를 가장 많이 사용한다
그렇지만 R프로그래밍의 기본인 R GUI를 통해 프로그래밍할 수 있어야 한다
- R GUI의 환경설정을 조정하고 편리한 기능들을 숙지한다
- R 패키지를 이해하고 CRAN을 통해 다운로드하고 실행 할 수 있다
- R의 큰 장점은 여러 사용자가 개발한 패키지를 활용해 쉽게 데이터 분석을 할 수 있다
- R 파일을 실행하고 배치작업을 할 수 있다
(1) 통계 패키지 R
1. R Studio 구성화면
2. R GUI의 화면 구성
1) 패키지(Package)
1-1 패키지 : R 함수와 데이터 및 컴파일 코드의 모임
1-2 패키지 불러들이기
- 하드디스크 : R 설치 또는 업데이트를 통해 설치
- 웹 : CRAN 저장소에 약 5000개의 유용한 패키지 자동 설치
install.packages("AID")
install.packages("AID","D:\\R\\R-4.3.1\\library") #수동설치
1-3 패키지 도움말
library(help=AID) #다운로드 된 AID 패키지의 help 다큐먼트 보여줌
help(package=AID) #웹을 통해 AID 패키지의 다큐먼트 보여줌
RSiteSearch("함수명")
'ADsP(데이터 분석 준전문가) > 개념정리' 카테고리의 다른 글
[3-3. 데이터 마트] 2~3. 데이터 가공 ~ 기초 분석 및 데이터 관리 (2) | 2024.01.03 |
---|---|
[3-3. 데이터 마트] 1. 데이터 변경 및 요약 (2) | 2024.01.02 |
[3-1. 데이터 분석 개요 ] (0) | 2024.01.01 |
[2-2. 분석 마스터 플랜] 2. 분석 거버넌스 체계 수립 (0) | 2024.01.01 |
[2-2. 분석 마스터 플랜] 1. 마스터 플랜 수립 프레임 워크 (0) | 2024.01.01 |