arrange()함수를 이용한 분석 예제
Q : 만약 audi에서 생산한 자동차중에 어떤 자동차 모델의 hwy(고속도로 연비)가 높은지 알아보려고 한다. audi에서 생산한 자동차 중 hwy 1~5위에 해당하는 자동차의 데이터를 출력하시오.
A :
1
우선적으로 해당 문제에서 사용된 데이터 셋은 ggplot2 패키지에 저장된 mpg데이터를 사용하였다. 그렇기에 가장 먼저 해야할 일은 ggplot2패키지의 mpg데이터를 데이터 프레임으로 저장해 주는 것이다.
2
그 후 'audi에서 생산한 자동차중' 이라는 조건이 주어졌다. 이말은 즉 제조사가 audi인 데이터만 우선적으로 추출하면 된다는 소리이기 때문에 filter함수로 manufacturer변수의 값이 audi인 값만 추출하도록 한다.
3
manufacturer의 값이 audi인 변수들만 추출된 상태에서 'hwy값이 높은' 자동차의 '모델명'을 적어주면 된다. 이는 즉 2번 과정에서 추출된 데이터의 상태에서 해야할 것은 select()함수를 이용하여 model변수의 값과 hwy(고속도로 연비)값만 선택하여 최종 값을 출력하면 된다.
4
3번 까지의 과정을 마치고 나면 현재 데이터에는 model변수와 hwy변수의 값만 남게 된다. 이 상태에서 hwy가 높은 값 1~5위, 즉 hwy의 값을 내림차순 처리를 해주어야 한다는 소리가 된다. 그렇기 떄문에 hwy변수에 대해서 arrange()함수에 desc()적용을 하여 내림차순을 하고 head()함수를 이용하여 5위까지 출력을 해주면 된다.(head()함수는 기본적으로 6개를 출력하기 때문에 head(5)로 입력하면 된다)