Q1 : mpg()데이터의 복사본을 만들고 cty와 hwy변수의 값을 더한 합산 연비 변수를 만드시오 Q2 : 앞에서 만든 합산 연비 변수를 2로 나눠 평균 연비 변수를 추가하세요. Q3 : 평균 연비 변수가 가장 높은 자동차 3종의 데이터를 출력하세요 Result
DataAnalysis
mutate()함수에 대해 알아보자. mutate함수는 파생 변수를 생성할 때 사용하는 함수이다. 동일하게 mutate()함수 또한 데이터 전처리를 위해 사용되는 함수이기 떄문에 dplyr패키지를 호출해 주어야 하며 사용할 테스트 데이터도 호출해 주어야 한다. mutate()함수의 매개변수의 형태는 다음과 같다.(파생변수 이름 = (파생 변수의 값이 될 식)) 예시를 들어서 수학, 과학, 영어의 값을 모두 합친 값 total 이라는 파생변수를 만든다고 가정하자. 그러면 다음과 같이 mutate함수를 작성해 주면 된다. 사진에서 보이다 싶이 세 과목의 데이터를 합친 값에 해당하는 total이라는 변수가 생긴것을 볼 수 있다. 이번에는 두가지 이상의 파생변수를 만든다고 가정하여 보자. 두가지 이상의 변수를 ..
Q : 만약 audi에서 생산한 자동차중에 어떤 자동차 모델의 hwy(고속도로 연비)가 높은지 알아보려고 한다. audi에서 생산한 자동차 중 hwy 1~5위에 해당하는 자동차의 데이터를 출력하시오. A : 1 우선적으로 해당 문제에서 사용된 데이터 셋은 ggplot2 패키지에 저장된 mpg데이터를 사용하였다. 그렇기에 가장 먼저 해야할 일은 ggplot2패키지의 mpg데이터를 데이터 프레임으로 저장해 주는 것이다. 2 그 후 'audi에서 생산한 자동차중' 이라는 조건이 주어졌다. 이말은 즉 제조사가 audi인 데이터만 우선적으로 추출하면 된다는 소리이기 때문에 filter함수로 manufacturer변수의 값이 audi인 값만 추출하도록 한다. 3 manufacturer의 값이 audi인 변수들만 추..
arrange()함수에 대해서 알아보자. arrange()함수의 arrange 자체의 의미는 배열하다 라는 의미가 있다. arrange()함수를 이용해서 오름차순 혹은 내림차순으로 정렬할 수 있다. arrange()함수의 매개변수는 오름차순 및 내림차순할 변수의 이름을 넣어주면 된다. 당연히 앞에서 보았던 filter()와 select()함수와 같이 데이터를 전처리하기 위한 함수이므로 dplyr패키지 안에 내장되어 있는 함수이다. 우선 arrange()함수를 사용하기 위해서 dplyr패키지를 호출하자. 그 후 예시 데이터 프레임을 불러와서 출력해 보자. 만약 여기서 내가 수학점수(math)에 대한 값을 오른차순으로 정렬하고 싶다고 하자. 오름차순이란 가장 낮은 값부터 시작해서 가장 높은 값까지 나타내는것..
갭마인더 데이터 집합에서 만약 내가 연도별 gdpPercap의 평균값을 알아보고 싶다고 하자. 이런 경우에는 연도별, 즉 year의 열로 '그룹화'를 한 다음 gdpPercap열의 평균을 구해주는 순서로 진행하면 된다. 이를 코드로 작성하면 다음과 같다. 처음 보기에는 막상 작성하려 보니 막막한 코드이다. 이 코드의 유도과정을 하나씩 살펴보면 이러한 순서가 나온다. 우선 연도별로 '그룹화'를 시키자. 데이터 프레임을 그룹화 시키기 위해서는 groupby()라는 메소드가 사용된다. groupby()메소드의 parameter으로는 그룹화 하려는 열의 이름이 들어가는데 만약 그룹화할 기준 열이 하나라면 작은따옴표로 묶은 후 작성해 주면 되지만 만약 그룹화 하려는 열의 이름이 2개 이상이 된다면 리스트 형태로 ..
loc과 iloc 속성을 활용하여 보자. 우선 추출할 데이터의 행, 열 지정하는 법부터 알아보자. 행과 열 지정은 행, 열 순서로 지정을 해준다. 이를 코드로 작성하면 (데이터 프레임).loc(혹은 iloc)[[행],[열]] 이 되는것이다. 행과 열 지정하는 여러 경우를 살펴보자 1 . 슬라이싱 구문법 여기서 행 부분에 ':'기호를 작성해 주었는데 이를 해석해 보면 '모든 행 데이터에서' 라고 해석하면 된다. 첫번쨰 사진은 인덱스를 이용하는 loc속성을 사용하였기에 열 지정값에 열의 이름 그대로인 문자열을 작성해 주었다. 반면 두번째 사진에서는 iloc을 이용하였기에 열의 번호(순서에 따른)가 저장된 리스트를 넣어준 것이다. 여기서 반대로 만약 loc속성의 열 지정 부분에 열의 번호가 저장된 리스트를 넣..
R 데이터 분석에서도 그랬듯이 필요한 데이터를 따로 추출해서 사용할 수 있다. 판다스에서는 데이터를 따로 추출하는데 있어서 열로 추출하기, 행으로 추출하기 두가지 방법이 존재한다. 각각의 방법에 대해서 알아보자 1 . 열 단위 데이터 추출하기 열 단위로 데이터를 추출할 때는 대괄호, 열 이름이 사용된다. 열 이름은 작은 따옴표로 묶어준다. 열 단위로 데이터를 출력할때 1개의 열만 추출하면 자료형은 -> 시리즈(series) 2개이상의 열을 추출하면 자료형은 -> 데이터 프레임(Data Frame) 이 된다. 우선 간단히 열 단위로 데이터를 추출해보자. 만약 갭마인더 데이터 집합에서 필자가 country라는 열의 데이터만 추출하고 싶다고 하자 그러면 다음과 같이 코드를 입력해 주면 된다. 형태를 보면 알겠..
판다스는 파이썬의 외부 라이브러리중 하나에 속한다. 하지만 파이썬과 판다스는 같은 자료형이라도 서로 다르게 인식한다. 파이썬과 판다스에서 자료형을 각각 다음과 같이 인식한다. 판다스 자료형 파이썬 자료형 해석 object string 문자열 int 64 int 정수 float 64 float 소수점을 지닌 숫자 dataframe64 datetime 파이썬 표준 라이브러리인 datetime이 반환되는 자료형
데이터를 파이썬 판다스 라이브러리로 분석을 해보자. 우선 우리가 해야할 일은 데이터를 불러오는 것인데, 여기서 불러오는 데이터를 우리는 앞으로 '데이터 집합'이라고 부를 것이다. 우선 예시로 불러올 데이터는 갭마인더(Gapminder)이라는 데이터를 불러올 것이다. 갭마인더 데이터는 제니퍼 브라이언이라는 사람이 연구용도로 만든 데이터라고 한다. 1 . 판다스 라이브러리 호출하기 import pandas라고 호출해도 된다 하지만 코드상에서 판다스를 호출하기 위해 매번 pandas라고 쓰는것은 매우 번거로우니 pd라는 약어로 사용하겠다고 선언하였다. 2 . 갭마인더 데이터 불러오기 갭마인더 데이터 집합을 불러오자. 갭마인더 데이터 집합을 불러오기 위해서는 read_csv()메소드를 사용해 주어야 한다. 첫번..
Python Version : Python 3.7 Library : Pandas Tools : Jupyter Notebook(.ipynb)
이번에는 select()함수에 대해 알아 보자. select()함수는 데이터 프레임 내에서 일부 변수만 사용하고자 하는 경우에 사용한다. select함수 사용법을 코드로 살펴보자. 이 포스트에서도 필자는 filter()포스팅에서 사용하였던 자료와 동일한 자료를 이용하여 진행하였다. 우선 select()함수는 dplyr 패키지에 있기 때문에 dplyr패키지를 호출하고 나서 예시 데이터 프레임을 생성하자. 예시에서 사용하는 데이터 프레임의 내용은 다음과 같습니다. 만약 필자가 수학 점수에 대한것만 출력하고 싶다고 하자. select()함수의 매개변수로는 '변수명' 이 들어간다. 코드는 다음과 같이 작성해 주면 된다. 해당 코드를 출력해보면 다음과 같이 math변수에 대한 데이터 값만 나오는것을 볼 수 있다...
filter()함수를 이용하여 행을 추출할 때 조건을 넣어줄때 >,=,