데이터를 파이썬 판다스 라이브러리로 분석을 해보자. 우선 우리가 해야할 일은 데이터를 불러오는 것인데, 여기서 불러오는 데이터를 우리는 앞으로 '데이터 집합'이라고 부를 것이다. 우선 예시로 불러올 데이터는 갭마인더(Gapminder)이라는 데이터를 불러올 것이다. 갭마인더 데이터는 제니퍼 브라이언이라는 사람이 연구용도로 만든 데이터라고 한다.
1 . 판다스 라이브러리 호출하기
import pandas라고 호출해도 된다 하지만 코드상에서 판다스를 호출하기 위해 매번 pandas라고 쓰는것은 매우 번거로우니 pd라는 약어로 사용하겠다고 선언하였다.
2 . 갭마인더 데이터 불러오기
갭마인더 데이터 집합을 불러오자. 갭마인더 데이터 집합을 불러오기 위해서는 read_csv()메소드를 사용해 주어야 한다. 첫번째 매개변수로는 해당 데이터 집합이 위치한 디렉토리를 지정해 준다. 디렉토리 지정은 사용자마다 디렉토리가 다를 수 있기 때문에 자신의 디렉토리에 맞게 작성해 주어야 한다. 하나 짚고 넘어가자면 '..'은 부모 디렉토리를 의미하고 '.'은 현재 디렉토리를 의미한다. 갭마인더는 열이 기본적으로 Tab으로 구분이 되어있기 떄문에 sep속성으로 탭을 의미하는 \t를 넣어준다. 여기까지 된다면 판다스 데이터 분석을 위한 준비가 끝난것이다.
판다스는 시리즈(series)와 데이터 프레임(Data Frame)이라는 자료형을 사용한다. 데이터 프레임은 엑셀의 시트(sheet)와 동일한 개념이고 시리즈는 데이터 프레임 안에서의 변수에 해당한다.(변수 = 열) 좀더 쉽게 얘기하자면 데이터 프레임은 시리즈들이 각 요소가 되는 딕셔너리(파이선 데이터타입) 라고 생각하면 된다.
이제 불러온 갭마인더 데이터를 간단하게 분석해보자
1 . head()메서드
head()메서드는 R언어에서의 head()함수와 동일하게 상위에 위치한 데이터의 일부를 불러오는 메소드이다. 판다스의 head()메소드는 상위 5개의 데이터를 불러온다.
2 . type()메소드
type메소드는 해당 변수의 자료형을 알 수 있게 해주는 메소드이다. type()함수를 통해 데이터 집합이 저장된 변수 df의 자료형이 정말 data frame인지 확인해 보자.
3 . shape속성
shape속성은 해당 데이터 프레임이 몇개의 행과 몇개의 열로 이루어져 있는가를 알려주는 함수이다. 출력되는 결과값은 순서대로 (행의개수, 열의개수)순서대로 출력이 된다.
type()메소드는 파이선 내장 함수이다. 여기서 결과값을 보면 갭마인더 데이터 집합은 1704행, 6열로 이루어져있다는 사실을 확인할 수 있다.
4 . coulumns속성
columns속성은 데이터 집합의 변수들을 나열해 놓는 속성이다.
5 . dtypes속성과 info()메소드
dtypes속성과 info()메소드는 각 시리즈(변수)들의 자료형을 알려준다. info()메소드가 dtypes속성에 비해 좀 더 자세한 내용을 알려준다.
'DataAnalysis > Python Pandas' 카테고리의 다른 글
기초 통계 계산 with Pandas (0) | 2019.02.26 |
---|---|
loc, iloc 활용해 보기 (0) | 2019.02.25 |
데이터 추출하기(Data Extraction) (0) | 2019.02.25 |
판다스 & 파이썬 자료형 비교 (0) | 2019.02.25 |
Pandas 포스팅 시작에 앞서 (0) | 2019.02.25 |