데이터를 분석할때는 그냥 Raw Data를 넣는것이 아닌 어느정도 가공을 한 후 데이터 분석을 진행해 주어야 한다. 여기서 가공하는 작업을 우리는 흔히 데이터 전처리(Data Processing)이라고 말한다. 데이터 전처리에는 데이터를 일부만 자르거나 데이터를 합치는 등 다양하게 가공하는 방법이 존재한다. 데이터 전처리를 위해서는 'dplyr'패키지가 이용된다. dplyr패키지는 데이터 전처리 과정에 많이 쓰이는 패키지이다. dplyr패키지 안에는 데이터 전처리를 도와주는 다양한 함수가 있다. 우선 오늘은 행을 추출하는 역할을 하는 filter() 함수에 대해 알아볼 것이다. 우선 자신이 활용할 임의의 자료를 준비해보자(.csv 파일로) 그 후 dplyr패키지 호출과 자신이 준비한 자료의 데이터 프레임..
DataAnalysis
1 . Derived Variable(파생변수) 만약 시험성적이라는 데이터가 있다고 해보자. 해당 데이터를 나는 .csv파일 형식으로 데이터 프레임을 저장할 것이며 해당 데이터 프레임의 변수로는 반(class),수학(math),영어(english),평균(averge)가 들어가야 된다고 하자. 우선 여기서 우리가 눈여겨봐야할것은 '평균'이라는 것이다. 여기서 예시로 든 데이터 프레임에서의 평균은 (수학점수) + (영어점수) / (과목수) 를 해주면 된다. 왜 내가 평균을 눈여겨봐야 하나 라는거에 대해 생각해보자. 해당 내용을 생각해 보면서 우선적으로 평균 변수를 제외한 데이터 프레임을 생성하고 출력해보자. 다음과 같이 변수 3개, 행이 8개인 데이터 프레임을 생성해 주었다. 자, 이제 왜 평균 변수에 대해..
앞에서까지는 head, tail, dim, str, summary함수를 통해서 전반적인 분석하려는 데이터의 구조의 변수개수. 행의개수, 속성, 특징 등을 분석해 보았다.하지만 자신이 분석하려는 데이터가 자신이 만든 데이터가 아닌 외부 데이터를 분석하려 한다고 하자. 하지만 만약 그 데이터의 변수의 이름이 알아보기 어렵기에 변수명을 수정해 본다는 케이스를 가정해 보자. 만약 자신이 알아보기 쉬운 변수명으로 바꾼다면 더 수월히 데이터를 다룰 수 있는것은 당연하다.실제로 데이터 변수명이 h0901_4와 같은 그냥 보면 대체 무슨 의미를 가졌는지 궁금증을 유발하는 변수명도 매우 많다. 본격적으로 변수명을 바꾸는것을 실습해보자. 변수명을 바꾸기 위해서는 rename()이라는 함수가 필요하다. 이 rename()이..
이번에는 앞에서 보았던 데이터 구조 분석을 이용하여 ggplot2패키지 안에 존재하는 테스트데이터인 mpg data의 구조를 분석해 보자.만약 ggplot2패키지를 다운받지 않았다면 install.packages("ggplot2") 를 실행하여 ggplot2패키지를 설치해 주자. 만약 자신이 ggplot2를 기존에 설치한적이 있다면 library("ggplot2")를 통해 해당 패키지를 호출해주자. 우선 ggplot2의 mpg데이터에 대한 데이터 프레임을 만들어주자. as.data.frame()함수를 이용하면 해당 데이터의 속성(자료형)을 데이터 프레임 형태로 바꿀 수 있다. as.data.frame()의 매개변수로는 data.frame()과 동일하게 데이터 프레임으로 만들 데이터를 넣어주면 된다. 여기..
1 . 데이터를 파악해보자. 데이터가 주어졌다고 하자. 그렇다면 우리는 무엇을 해주어야될까? 당연히 해당 데이터에 대한 파악이 필요할 것이다. 어떠한 변수들이 존재하고 얼마나 많은 데이터 수가 있는지(행의 개수) 등 전반적인 데이터의 구조를 봐야할 필요가 있는것이다. 그렇다면 데이터에 대한 구조파악을 어떻게 해야할까? R언어에는 이 데이터들을 파악할 수 있게 도와주는 함수들이 존재한다. 지금부터 데이터 구조를 파악하기 위해 도와주는 함수들을 살펴보자. 2 . 데이터 파악을 도와주는 함수들(해당 포스트에서는 .csv파일을 이용하였다.) 1) head(), tail()함수 head와 tail함수는 데이터의 일부분만 출력하여 데이터 형태를 파악할 때 쓰는 함수이다. head()함수는 기본적으로 해당 데이터의 ..
1 . R이란 무엇인가? R이란 데이터를 분석하는데 사용되는 소프트웨어이다. R은 범용 분석 툴로, 통계분석,머신러닝 모델링, 텍스트 마이닝, 네트워크 분석, 지도시각화, 주식분석 등 다양한 상황과 분야에서 다양하게 접목시킬 수 있다. 또한 R은 오픈소스이다. 그렇기에 다양한 패키지가 생성되어있어 해당 패키지를 install.packages를 이용해 다운받은후 다양히 사용하는것도 가능하다. 2 . ENV만들기 R을 하기 위해서는 R과 R 스튜디오가 필요하다.우선 https://cran.r-project.org/ 사이트를 들어가서 자신의 운영체제와 맞는 R파일을 설치해준다. 그 다음 R GUI(Graphic User Interface)를 실행하자. R GUI란 R의 소스코드를 작성할 수 있는 소프트웨어이다..