1 . 데이터를 파악해보자.
데이터가 주어졌다고 하자. 그렇다면 우리는 무엇을 해주어야될까? 당연히 해당 데이터에 대한 파악이 필요할 것이다. 어떠한 변수들이 존재하고 얼마나 많은 데이터 수가 있는지(행의 개수) 등 전반적인 데이터의 구조를 봐야할 필요가 있는것이다.
그렇다면 데이터에 대한 구조파악을 어떻게 해야할까? R언어에는 이 데이터들을 파악할 수 있게 도와주는 함수들이 존재한다. 지금부터 데이터 구조를 파악하기 위해 도와주는 함수들을 살펴보자.
2 . 데이터 파악을 도와주는 함수들(해당 포스트에서는 .csv파일을 이용하였다.)
1) head(), tail()함수
head와 tail함수는 데이터의 일부분만 출력하여 데이터 형태를 파악할 때 쓰는 함수이다. head()함수는 기본적으로 해당 데이터의 앞에서 6줄을 출력하고 tail()함수는 기본적으로 해당 데이터의 뒷부분의 6줄을 출력한다. tail()과 head()함수의 기본적인 매개변수로는 csv 혹은 excel파일을 읽어와 데이터 프레임을 저장한 변수를 넣어주면 된다
엑셀 데이터 프레임 저장하기 : install.packages(readxl) -> read_excel(엑셀파일명.확장자)를 변수에 저장
csv 데이터 프레임 저장하기 : read.csv(csv파일명.확장자)를 변수에 저장
주의할점은 해당 엑셀 및 csv파일은 프로젝트 디렉토리에 있어야 한다.(+ 엑셀 확장자 : xlsx, csv파일 확장자 : csv)
head()함수 : 상위 6개의 행이 출력된다.
tail()함수 : 하위 6개의 행이 출력된다.
물론 head()와 tail()함수를 이용해 꼭 6줄만 출력할 수 있는것은 아니다. 만약 내가 3줄을 출력하고 싶다고 하자. 그렇다면 데이터 프레임 뒤에 자신이 출력시키고 싶은만큼의 행의 개수를 작성해 주면 된다.
만약 상위 3줄만 출력하고 싶다면
만약 하위 10줄을 출력하고 싶다면
2)View()함수
View()함수는 뷰어 창을 열어 파악하려는 데이터의 구조를 보여주는 기능이다. View()함수의 맨 앞의 V자는 소문자가 아닌 꼭 대문자여야 한다.
해당 코드를 작성하고 실행해주면 밑의 사진과 같이 새로운 뷰어창이 열리면서 자신이 분석하려는 데이터의 원 자료를 보여준다.
3) dim()함수
dim()함수는 해당 데이터가 몇 행 몇 열로 구성되어있는지를 보여준다. dim()함수의 결과값은 행, 열 순서로 출력된다. 필자가 사용한 데이터는 20행 5열짜리 데이터이다. 한번 dim()함수를 통한 결과값을 보자.
다음과 같이 결과값을 보면 20행, 5열 행 열 순서대로 나오는것을 볼 수 있다.
4) str()함수
str()함수는 데이터에 들어있는 변수의 속성(여기서 속성과 자료형은 동일한 의미이다.)을 보여준다. str()함수는 해당 데이터 안에 있는 모든 변수들에 대해 한눈에 파악할 때 많이 사용한다. 우선 str()함수를 이용해 필자가 사용한 데이터를 파악해보자.
처음 결과값을 보면 되게 들여놓은거같은 결과값을 볼 수 있다. 우선 결과 값을 보면 첫번째항은 데이터의 속성(자료형)이 무엇인지, 몇개의 행이 있으며 몇개의 변수로 되어있는지로 알려준다. 여기서 우선 데이터의 속성은 데이터프레임(data.frame)이고 20개의 행이 있으며(obs, observation이라고 부르기도 하나 이는 행과 동일한 의미를 가진다) 5개의 변수를 가진다라고 해석할 수 있다. 한번 데이터파일을 열어보거나 dim()함수를 실행하여 과 동일한 행과 열의 개수를 가졌는지 살펴보자. 그 다음 두번째 행부터는 변수의 이름과 속성(자료형과 동일한의미)이 무엇인지와 해당 변수 안에 들어있는 값들을 나열한다. 두번째 행을 보면 id라는 이름의 변수에, int(integer), 즉 정수형의 데이터이며 그 뒤에는 해당 변수 안에 저장된 값(데이터)들이 나열되어있는것을 볼 수 있다.(모든 값들이 출력되는것은 아니다.)
5) summary()함수
summary()함수는 변수의 값을 요약한 '요약 통계량' 을 보여주는 함수이다. 요약 통계량은 변수의 특성을 파악할 수 있게 도와준다.
summary함수의 결과값은 다음과 같이 나올것이다. Min, 1st QU,x Median, Mean, 3rd Qu, Max라는 카테고리를 가지고 각각의 변수를 분석한 것을 볼 수 있다. 근데 여기서 Min, 1st QU,x Median, Mean, 3rd Qu, Max 는 어떠한 것을 의미할까?
-Min : 최소값을 의미하며 가장 작은 값을 출력한다
-1st Qu(Quantile) : 1사분위수를 의미하며 하위 25%지점에 위치한 데이터를 출력한다.
-Median : 중앙값을 의미하며 해당 변수의 중앙에 위치에 해당하는 데이터를 출력한다.
-Mean : 평균을 출력한다.
-3rd Qu : 3사분위수를 의미하며 하위 75% 지점에 위치한 데이터를 출력한다.
-Max : 최댓값을 의미하고 출력한다.
그렇다면 science라는 변수의 요약 통계량을 보며 의미를 해석해보자.
-평균 점수는 59.45점이다
-최대값은 98.00점이며 최소값은 12.00점이다.
-학생들의 점수는 59.45점을 중심으로 45.00점에서 78.00점 사이에 많이 분포해있다.
*Mean, 1st Qu, 3rd Qu : Mean값을 기준으로 1st Qu와 3rd Qu사이에 많이 분포되어있다.
'DataAnalysis > R' 카테고리의 다른 글
데이터 전처리하기(Data - Processing) - filter() (1) | 2019.02.23 |
---|---|
Derived Variable (0) | 2019.02.04 |
Change Variable's name (0) | 2019.02.01 |
Understanding Data - with mpg Data (0) | 2019.01.31 |
Starting R Language (0) | 2019.01.30 |