Understanding Data - with mpg Data
이번에는 앞에서 보았던 데이터 구조 분석을 이용하여 ggplot2패키지 안에 존재하는 테스트데이터인 mpg data의 구조를 분석해 보자.
만약 ggplot2패키지를 다운받지 않았다면 install.packages("ggplot2") 를 실행하여 ggplot2패키지를 설치해 주자. 만약 자신이 ggplot2를 기존에 설치한적이 있다면 library("ggplot2")를 통해 해당 패키지를 호출해주자.
우선 ggplot2의 mpg데이터에 대한 데이터 프레임을 만들어주자.
as.data.frame()함수를 이용하면 해당 데이터의 속성(자료형)을 데이터 프레임 형태로 바꿀 수 있다. as.data.frame()의 매개변수로는 data.frame()과 동일하게 데이터 프레임으로 만들 데이터를 넣어주면 된다. 여기서 주목해야할 것은 ggplot2::mpg에서 ::기호인데, :: 기호는 특정 패키지에 들어있는 함수 혹은 데이터를 지정할때 사용한다.
head,tail,dim,str,summary함수 순으로 데이터 구조를 파악해 보자.
head와 tail함수를 통해서 mpg데이터는 총 234개의 행으로 구성된 데이터라는것과 11개의 변수가 존재한다는것을 알 수 있다.
head, tail함수에서 보았듯이 행과 열을 구하는 dim()함수에서도 234행 11열(변수)가 나오는것을 볼 수있다.
str()함수를 통해서 보면 해당 데이터 프레임의 행과 열, 각 변수들의 속성과 각 변수들 안에 들어있는 값의 일부를 출력하는것을 볼 수 있다.
이번에는 summary()함수를 통해 요약 통계량을 보면서 각 변수의 특성을 살펴보자
여기서 우리가 처음 볼 수 있는것은 manufacturer, model,fl,class와 같은 해당 변수의 속성이 char,즉 문자형일때는 min, max, median, mean등 수치값에 관련된 값은 나오지 않고 class와 mode가 character, 즉 문자형 자료형이라는 표기만 해준다. 한번 도시 연비를 의미하는 cty변수에 대해 구조를 살펴보자. 우선 데이터 상에서의 최소값은 9.0마일, 최대값은 35.0마일이며 평균 16.86마일을 기준으로 1갤런(gallon)당 14.0마일에서 19.0마일 사이에서의 데이터가 많이 분표한다는것을 알 수 있다.