1 . R이란 무엇인가?
R이란 데이터를 분석하는데 사용되는 소프트웨어이다. R은 범용 분석 툴로, 통계분석,머신러닝 모델링, 텍스트 마이닝, 네트워크 분석, 지도시각화, 주식분석 등 다양한 상황과 분야에서 다양하게 접목시킬 수 있다. 또한 R은 오픈소스이다. 그렇기에 다양한 패키지가 생성되어있어 해당 패키지를 install.packages를 이용해 다운받은후 다양히 사용하는것도 가능하다.
2 . ENV만들기
R을 하기 위해서는 R과 R 스튜디오가 필요하다.
우선 https://cran.r-project.org/ 사이트를 들어가서 자신의 운영체제와 맞는 R파일을 설치해준다.
그 다음 R GUI(Graphic User Interface)를 실행하자. R GUI란 R의 소스코드를 작성할 수 있는 소프트웨어이다. 설치가 완료 되면 R 파일이 32비트 64비트 모두 설치되는것을 볼 수 있다. 그 중 자신의 운영체제와 맞는 비트수의 파일을 실행해보자
다음과 같은 창이 뜨는걸 볼 수 있고 R Console이라는 창이 있는것을 볼 수 있다. R Console은 인터프리터처럼 명령어를 치면 바로바로 출력값을 보여준다.
그 다음에 R 스튜디오를 설치하자. R 스튜디오는 R이 설치되야만 실행이 된다. R 스튜디오는 https://www.rstudio.com/products/rstudio/download/ 해당 링크를 들어가서 자신의 운영체제에 맞는 R 스튜디오를 설치해준다. 그 후 R 스튜디오를 실행해주자.
만약 창이 다음과 같이 3개만 뜬다면 표시해 놓은 부분을 클릭하면 콘솔창이 축소되면서 코드 입력란이 보일것이다. R 스튜디오는 4가지 부분으로 나누어져있다.
1 . 소스코드 창
말 그대로 R 코드를 작성해 주는 부분이다.
2 . 콘솔 창
위에서 보았던 R GUI와 동일한 역할도 하며 소스코드의 결과를 보여주는 곳이기도 하다. 한 번 간단한 코드를 입력해보자. R스튜디오에서 코드를 실행시키기 위해서는 코드를 입력하고 드래그한다음 Ctrl + Enter를 해주면 콘솔창에서 해당 코드들을 실행해 준다.
3 . Environment창
Environment창은 만약 내가 a라는 변수에 10이라는 변수를 데이터를 대입하였다고 하자.
그 후 해당 문을 실행하면 Environment창에서는 다음과 같은 창이뜨는것을 볼 수 있다. 즉 자신이 생성한 데이터를 보여주는 환경창을 의미하는 것이다.
4 . FIle창
파일창은 해당 프로젝트의 디렉토리 내에 있는 파일들을 보여주는 창이다. File창에는 5가지가 파트가 존재한다.
1) File : 워킹 디렉토리를 보여준다. 워킹 디렉토리란 R에서 파일을 불러오거나 저장할 때 사용하는 디렉토리를 의미한다.
2) Plots : 그래프를 보여준다
3) Packages : 설치된 패키지 목록을 보여준다
4) Help : Help()함수 실행시 도움말을 보여준다
5) Viewer : 분석 결과를 HTML과 같은 웹문서로 출력
R스튜디오의 기본적인 구성을 알았으니 이번에는 프로젝트를 생성해보자. 프로젝트를 만들면 소스코드, 문서, 외부프로그램에서 생성된 자료를 활용할때 효율적으로 관리할 수 있다. 프로젝트 생성을 위해서는 오른쪽 상단에 Project라고 되어있는 부분을 클릭하면 New Projct라고 쓰여있는 부분이 있을 것이다.
New Project를 클릭하면 다음과 같은 창이 뜬다.
여기서 New Directory를 클릭하고 이름과 자신이 해당 프로젝트를 저장할 디렉토리를 지정해준 후 Create Project를 클릭해주자. 우선 프로젝트를 생성하면 오른쪽 상단에 프로젝트를 만들기 위해 클릭했던 부분이 자신이 지정한 프로젝트 이름으로 바뀌는것을 볼 수 있다. 소스코드 창에 입력해 만들어진 문서를 우리는 Script라고 한다. 코드 창에서 스크립트를 작성하고 저장하기 위해서는 Ctrl + S를 눌러주면 되고 해당 프로젝트에서 새로운 스크립트를 실행하고싶다면 Ctrl + Shift + N을 눌러주면된다. 하나 주의할 점은 만약 기존의 스크립트가 s1이라는 파일이고 새로만든 스크립트가 s2라고 하자. s1에서 a라는 변수를 10이라고 작성해주었다면, 이 a라는 변수는 s2에서 a라는 변수를 작성하고 실행해도 동일한 값 10이 나온다. 즉 하나의 프로젝트 안에서 여러개 스크립트가 있어도 공유하는 변수의 값은 동일하다는것이다.
간혹 코드 작성을 하다 디렉토리를 보면 다음과 같은 정체불명의 파일들이 생기는것을 볼 수 있을것이다.
위에 보이는 파일은 R Workspace라고 해서 R 스튜디오에서 생성된 데이터를 담고있는 작업환경 파일이고 밑의 파일은 R history라고 해서 자신이 R 스튜디오상에서 실행한 명령어들을 목록형식으로 담고있는 파일이다.
'DataAnalysis > R' 카테고리의 다른 글
데이터 전처리하기(Data - Processing) - filter() (1) | 2019.02.23 |
---|---|
Derived Variable (0) | 2019.02.04 |
Change Variable's name (0) | 2019.02.01 |
Understanding Data - with mpg Data (0) | 2019.01.31 |
Understanding Data (0) | 2019.01.31 |