pivot table과 groupby
pivot table은 groupby와 유사하지만 더 낫다. 비교해서 확인할 것. pivot table만 가능한 것 이있다.
교차하는 셀에는 통계요약을 넣는다. ? 집계함수를 따로따로 두는 것..?
groupby는 행에 label을 붙인다..?
Pivot table
피벗 테이블(pivot table)은 커다란 표(예: 데이터베이스, 스프레드시트, 비즈니스 인텔리전스 프로그램 등)의 데이터를 요약하는 통계표이다. 이 요약에는 합계, 평균, 기타 통계가 포함될 수 있으며 피벗 테이블이 이들을 함께 의미있는 방식으로 묶어준다.
피벗 테이블은 데이터 처리의 한 기법이다. 유용한 정보에 집중할 수 있도록 하기 위해 통계를 정렬 또는 재정렬(피벗)한다.
- 출처 : 위키피디아
데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다.
첫번째 인수로는 행 인덱스로 사용할 열 이름,
두번째 인수로는 열 인덱스로 사용할 열 이름,
그리고 마지막으로 데이터로 사용할 열 이름
groupby
조건에 맞는 데이터가 하나 이상이라서
데이터 그룹을 이루는 경우에는
그룹의 특성을 보여주는 그룹분석(group analysis)을 한다.
키에 의해서 결정되는 데이터가 여러개가 있을 경우, 미리 지정한 연산을 통해 해당 그룹 데이터의 대표값을 계산한다.
groupby : 데이터를 그룹 별로 분류하는 역할
- size, count: 그룹 데이터의 갯수
- mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대
- sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터
그룹 연산
-
agg, aggregate
- 만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달한다.
- 또는 여러가지 그룹연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트를 전달한다.
-
describe
- 하나의 그룹 대표값이 아니라 여러개의 값을 데이터프레임으로 구한다.
-
apply
- describe 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹연산이 없는 경우에 사용한다.
-
transform
- 그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형한다
참고 : https://datascienceschool.net/view-notebook/76dcd63bba2c4959af15bec41b197e7c/