앞에서까지는 head, tail, dim, str, summary함수를 통해서 전반적인 분석하려는 데이터의 구조의 변수개수. 행의개수, 속성, 특징 등을 분석해 보았다.
하지만 자신이 분석하려는 데이터가 자신이 만든 데이터가 아닌 외부 데이터를 분석하려 한다고 하자. 하지만 만약 그 데이터의 변수의 이름이 알아보기 어렵기에 변수명을 수정해 본다는 케이스를 가정해 보자. 만약 자신이 알아보기 쉬운 변수명으로 바꾼다면 더 수월히 데이터를 다룰 수 있는것은 당연하다.실제로 데이터 변수명이 h0901_4와 같은 그냥 보면 대체 무슨 의미를 가졌는지 궁금증을 유발하는 변수명도 매우 많다.
본격적으로 변수명을 바꾸는것을 실습해보자. 변수명을 바꾸기 위해서는 rename()이라는 함수가 필요하다. 이 rename()이라는 함수를 사용하기 위해서는 dplyr 패키지 안에 존재한다. dplyr패키지란 R언어의 기본적인 data.frame에서 자료를 조건에 따라 선택하고 배열하고 결합하고 요약하는데 편리한 함수를 제공하는 패키지이다.
1) dpylr패키지 설치
install.packages("dplyr")를 실행하여 dplyr패키지를 설치하자. 그 후 library("dplyr")을 실행하여 dplyr라이브러리를 로드해주자. 그 후 임의의 데이터 프레임을 생성해 주자.
2) 데이터 프레임 복사본 만들기
데이터 프레임의 원본을 유지하기 위해서 새로운 데이터 프레임의 복사본을 만들자. 왜 새로운 데이터 프레임 복사본을 만드는지 궁금할 수도 있다. 그 이유는 데이터를 가지고 결론적으로 데이터를 변형하면서 활용할 것이기에 원본을 그대로 사용하는거보다 혹시 모를 오류가 발생할것을 대비해서 원 자료의 복사본을 만들어주는 것이며 데이터 프레임 내용을 변형할 때 미리 복사본을 만들어 놓는 습관을 잘 들여놓는것은 매우 중요하다.
여기서는 dat라는 이름을 가진 데이터프레임을 기존 변수, dat_new라는 데이터 프레임을 기존 데이터프레임의 복사본으로 생성하였다.
3) 변수명 변경
이제 본격적으로 변수명을 변경하여 보자. 변수명을 변경할때는 앞에서 말했듯이 rename()함수를 사용하고, 변수명을 바꾼 데이터에 대해서는 새로운 데이터 프레임 변수에 넣어주어야 한다. rename함수의 괄호 안에 매개변수를 넣을때의 순서는 고정되어 있다
(저장할 새로운 데이터프레임 변수) <- rename(데이터프레임, 새로운 변수명 = 기존 변수명)
주의할 점은 매개변수 순서가 틀리면 아예 실행이 안된다는 점이다. 필자는 위에 만든 임의의 데이터프레임의 id변수를 class라는 변수로 바꾼다는 가정을 해볼것이다.
해당 코드를 보면 dat라는 데이터 프레임안에있는 id라는 변수를 class라는 변수로 바꾼 후 dat_new라는 데이터프레임 변수에 저장한다고 해석하면 된다. 그렇다면 이제 새롭게 변수명을 변경해 저장한 dat_new라는 데이터 프레임과 기존 원본 데이터 프레임인 dat를 각각 출력하여 비교해 보자.
원본 데이터프레임(dat)
id변수 변경 데이터프레임(dat_new)
결과값을 보면 알 수 있듯이 원본 데이터프레임에 해당하는 dat 에서의 id 변수명이 변경 데이터프레임인 dat_new에서는 class로 변경되어 출력되는것을 볼 수 있다.
'DataAnalysis > R' 카테고리의 다른 글
데이터 전처리하기(Data - Processing) - filter() (1) | 2019.02.23 |
---|---|
Derived Variable (0) | 2019.02.04 |
Understanding Data - with mpg Data (0) | 2019.01.31 |
Understanding Data (0) | 2019.01.31 |
Starting R Language (0) | 2019.01.30 |