어떠한 집단에 대한 평균 및 빈도등 각 집단의요약을 구할때는 summaries()함수와 group_by()함수를 사용해 준다. summaries()함수와 group_by()함수 또한 데이터 전처리를 위한 함수이므로 dplyr 패키지 안에 내장되어있는 함수이다. 이번에도 동일하게 dplyr패키지와 실습용 데이터를 불러오자.
우선 summaries()함수를 이용하여 보자. 해당 코드는 과학과목의 평균을 구한다음에 Average라는 변수에 저장하여 출력하는 코드이다.
mean()함수는 전체 데이터에 대한 평균값을 구하기 위해서 사용된다. summaries()함수는 group_by()함수와 집단별 요약표를 만들때 유용하게 사용된다. group_by()함수에 매개변수로 변수 이름을 넣어주게 되면 해당 변수의 데이터(및 항목) 별로 데이터가 분리된다. 변수별로 데이터를 분리한 후 summaries()함수를 이용하여 집단별 요약 통계량을 만들 수 있다. 예시를 들어 예시 데이터에서 반별로 수학점수의 평균, 총합, 중간점수를 구하고 싶다고 가정하자.
다음 경우에 대해 생각을 해보자. 우선적으로 '반별로'라는 조건이 들어가기 때문에 class 별로 그룹화를 해주어야 한다. 그렇기 때문에 변수의 각 요소별로 묶어주는 group_by()함수의 매개변수로는 class변수가 들어가 주어야 한다. 그 후 sum,mean,median함수를 이용해서 요약본을 만든다.
group_by()함수의 특징이 하나 있는데 그것은 group_by()함수의 결과값은 데이터 프레임 타입이 아닌 티블이라는 타입이다. 티블(tibble)타입은 데이터 프레임데서 단지 몇가지만 추가 된것일뿐 활용법은 동일하다.
group_by()함수의 매개변수에 여러 변수를 넣어주게 되면 집단을 나눈후 그 안에서 또다른 집단으로 나눌 수 있다. 위의 방법을 이용하여서 ggplot2의 실험 데이터로 담겨있는 mpg데이터에 대해서/(과정1) 회사별로 집단을 나눈 후 다시 차량 구동 방식을 나누고/(과정2) 평균 연비를 구해보자./(과정3)
'DataAnalysis > R' 카테고리의 다른 글
R - StringAsFactor 이 무엇인가? (0) | 2019.03.04 |
---|---|
데이터 전처리하기(Data Processing) - left_join(), bind_rows() (0) | 2019.03.03 |
mutate()함수를 이용한 분석 예제 (0) | 2019.03.03 |
데이터 전처리하기(Data Processing) - mutate() (0) | 2019.03.03 |
arrange()함수를 이용한 분석 예제 (0) | 2019.03.02 |