DataAnalysis/R

문제 및 조건 사용 데이터 : ggplot2패키지의 midwest데이터 1 . pop adults는 해당 지역의 성인인구, poptotal은 전체 인구를 나타낸다. midwest데이터에 전체 인구 대비 미성년 인구 백분율 변수를 추가하시오 2 . 미성년 인구 백분율이 가장 높은 상위 5개 county의 미성년 인구 백분율을 출력하시오 3 . 분류표의 기준에 따라 미성년 비율 등급 변수를 추가하고 각 등급에 몇 개의 지역이 존재하는지 알아보시오 분류 기준 large 40%이상 middle 30~40%미만 small 30%미만 4 . popasian은 해당 지역의 아시아인 인구를 나타낸다. 전체 인구 대비 아시아인 인구 백분율 변수를 추가하고 하위 10개 지역의 state county아시아인 인구 백분율을 ..
mpg데이터에는 해당 차량에 들어가는 연비의 종류가 표시된 fl변수가 존재한다. fl 변수에는 c(CNG), d(Disel), e(Ethanol), p(Premium), r(Regular)을 의미하는 변수가 있다. mpg데이터 변수에 만약 내가 갤런당의 가격을 넣고 싶다고 하자. mpg데이터에 추가를 하기 위한 데이터 프레임을 다음과 같이 만들었다. 결론적으로는 '연료별 가격' 을 의미하기 때문에 기준 변수는 fl변수가 될것이고, 이는 새로운 데이터의 변수를 추가하는 것이기 때문에 가로로 붙이는것에 해당이 된다. mpg데이터에 방금 만든 fuel이라는 데이터 프레임을 붙여보자. 다음과 같이 말이다. 데이터를 부착하고 출력을 시키고 보면 다음과 같이 나올것이다. 결과를 보면 맨 오른쪽에 price_fl이라..
경우에 따라서 주어진 데이터에서 추가적인 데이터를 추가하여 새로운 데이터를 생성하고, 그 데이터로 분석을 하는 경우가 생길 수 도 있다. 예를 들면 학교에서 각반의 시험 데이터를 모아서 합친 후 데이터를 분석한다는 등을 예시로 들 수 있다. 데이터를 합치는데 있어서 두가지 경우로 또 나눌 수 있다. 1 . 같은 변수의 데이터를 가진 데이터를 합치는 경우(세로로 합치는 경우) 2 . 새로운 변수의 데이터를 가진 데이터를 합치는 경우(가로로 합치는 경우) 간단히 말해서 가로로 합치기, 세로로 합치기라고 하자. 가로로 합칠때는 left_join()이라는 함수를 이용하고 세로로 합치는 경우에는 bind_rows()라는 함수를 이용한다. 이 두 함수 또한 데이터를 전처리하는 경우에 사용하는 함수들이기 때문에 dp..
어떠한 집단에 대한 평균 및 빈도등 각 집단의요약을 구할때는 summaries()함수와 group_by()함수를 사용해 준다. summaries()함수와 group_by()함수 또한 데이터 전처리를 위한 함수이므로 dplyr 패키지 안에 내장되어있는 함수이다. 이번에도 동일하게 dplyr패키지와 실습용 데이터를 불러오자. 우선 summaries()함수를 이용하여 보자. 해당 코드는 과학과목의 평균을 구한다음에 Average라는 변수에 저장하여 출력하는 코드이다. mean()함수는 전체 데이터에 대한 평균값을 구하기 위해서 사용된다. summaries()함수는 group_by()함수와 집단별 요약표를 만들때 유용하게 사용된다. group_by()함수에 매개변수로 변수 이름을 넣어주게 되면 해당 변수의 데이..
Q1 : mpg()데이터의 복사본을 만들고 cty와 hwy변수의 값을 더한 합산 연비 변수를 만드시오 Q2 : 앞에서 만든 합산 연비 변수를 2로 나눠 평균 연비 변수를 추가하세요. Q3 : 평균 연비 변수가 가장 높은 자동차 3종의 데이터를 출력하세요 Result
mutate()함수에 대해 알아보자. mutate함수는 파생 변수를 생성할 때 사용하는 함수이다. 동일하게 mutate()함수 또한 데이터 전처리를 위해 사용되는 함수이기 떄문에 dplyr패키지를 호출해 주어야 하며 사용할 테스트 데이터도 호출해 주어야 한다. mutate()함수의 매개변수의 형태는 다음과 같다.(파생변수 이름 = (파생 변수의 값이 될 식)) 예시를 들어서 수학, 과학, 영어의 값을 모두 합친 값 total 이라는 파생변수를 만든다고 가정하자. 그러면 다음과 같이 mutate함수를 작성해 주면 된다. 사진에서 보이다 싶이 세 과목의 데이터를 합친 값에 해당하는 total이라는 변수가 생긴것을 볼 수 있다. 이번에는 두가지 이상의 파생변수를 만든다고 가정하여 보자. 두가지 이상의 변수를 ..
Q : 만약 audi에서 생산한 자동차중에 어떤 자동차 모델의 hwy(고속도로 연비)가 높은지 알아보려고 한다. audi에서 생산한 자동차 중 hwy 1~5위에 해당하는 자동차의 데이터를 출력하시오. A : 1 우선적으로 해당 문제에서 사용된 데이터 셋은 ggplot2 패키지에 저장된 mpg데이터를 사용하였다. 그렇기에 가장 먼저 해야할 일은 ggplot2패키지의 mpg데이터를 데이터 프레임으로 저장해 주는 것이다. 2 그 후 'audi에서 생산한 자동차중' 이라는 조건이 주어졌다. 이말은 즉 제조사가 audi인 데이터만 우선적으로 추출하면 된다는 소리이기 때문에 filter함수로 manufacturer변수의 값이 audi인 값만 추출하도록 한다. 3 manufacturer의 값이 audi인 변수들만 추..
arrange()함수에 대해서 알아보자. arrange()함수의 arrange 자체의 의미는 배열하다 라는 의미가 있다. arrange()함수를 이용해서 오름차순 혹은 내림차순으로 정렬할 수 있다. arrange()함수의 매개변수는 오름차순 및 내림차순할 변수의 이름을 넣어주면 된다. 당연히 앞에서 보았던 filter()와 select()함수와 같이 데이터를 전처리하기 위한 함수이므로 dplyr패키지 안에 내장되어 있는 함수이다. 우선 arrange()함수를 사용하기 위해서 dplyr패키지를 호출하자. 그 후 예시 데이터 프레임을 불러와서 출력해 보자. 만약 여기서 내가 수학점수(math)에 대한 값을 오른차순으로 정렬하고 싶다고 하자. 오름차순이란 가장 낮은 값부터 시작해서 가장 높은 값까지 나타내는것..
이번에는 select()함수에 대해 알아 보자. select()함수는 데이터 프레임 내에서 일부 변수만 사용하고자 하는 경우에 사용한다. select함수 사용법을 코드로 살펴보자. 이 포스트에서도 필자는 filter()포스팅에서 사용하였던 자료와 동일한 자료를 이용하여 진행하였다. 우선 select()함수는 dplyr 패키지에 있기 때문에 dplyr패키지를 호출하고 나서 예시 데이터 프레임을 생성하자. 예시에서 사용하는 데이터 프레임의 내용은 다음과 같습니다. 만약 필자가 수학 점수에 대한것만 출력하고 싶다고 하자. select()함수의 매개변수로는 '변수명' 이 들어간다. 코드는 다음과 같이 작성해 주면 된다. 해당 코드를 출력해보면 다음과 같이 math변수에 대한 데이터 값만 나오는것을 볼 수 있다...
filter()함수를 이용하여 행을 추출할 때 조건을 넣어줄때 >,=,
데이터를 분석할때는 그냥 Raw Data를 넣는것이 아닌 어느정도 가공을 한 후 데이터 분석을 진행해 주어야 한다. 여기서 가공하는 작업을 우리는 흔히 데이터 전처리(Data Processing)이라고 말한다. 데이터 전처리에는 데이터를 일부만 자르거나 데이터를 합치는 등 다양하게 가공하는 방법이 존재한다. 데이터 전처리를 위해서는 'dplyr'패키지가 이용된다. dplyr패키지는 데이터 전처리 과정에 많이 쓰이는 패키지이다. dplyr패키지 안에는 데이터 전처리를 도와주는 다양한 함수가 있다. 우선 오늘은 행을 추출하는 역할을 하는 filter() 함수에 대해 알아볼 것이다. 우선 자신이 활용할 임의의 자료를 준비해보자(.csv 파일로) 그 후 dplyr패키지 호출과 자신이 준비한 자료의 데이터 프레임..
1 . Derived Variable(파생변수) 만약 시험성적이라는 데이터가 있다고 해보자. 해당 데이터를 나는 .csv파일 형식으로 데이터 프레임을 저장할 것이며 해당 데이터 프레임의 변수로는 반(class),수학(math),영어(english),평균(averge)가 들어가야 된다고 하자. 우선 여기서 우리가 눈여겨봐야할것은 '평균'이라는 것이다. 여기서 예시로 든 데이터 프레임에서의 평균은 (수학점수) + (영어점수) / (과목수) 를 해주면 된다. 왜 내가 평균을 눈여겨봐야 하나 라는거에 대해 생각해보자. 해당 내용을 생각해 보면서 우선적으로 평균 변수를 제외한 데이터 프레임을 생성하고 출력해보자. 다음과 같이 변수 3개, 행이 8개인 데이터 프레임을 생성해 주었다. 자, 이제 왜 평균 변수에 대해..
Hoplin
'DataAnalysis/R' 카테고리의 글 목록