728x90
1. dplyr 패키지 개요
R에서 기본적으로 제공하는 함수 외에 외부에서 제공하는 다양한 패키지를 사용한다면 데이터 처리와 가공 과정을 조금 더 편리하게 할 수 진행할 수 있다. 대표적으로 dplyr, tidyr, ggplot2 등 패키지들이 많이 사용되고 있다. 아래는 데이터 처리 단계에서 대표적으로 사용하는 dplyr 패키지에 대하여 설명한다.
출처: dplyr (https://dplyr.tidyverse.org/)
2. dplyr 패키지 함수
dplyr 패지키는 reshape2, tidyr, ggplot2 등 패키지와 함께 Hadley Wickham이 개발하여 배포하고 있으며, 현재 데이터 가공 및 처리 단계에서 많이 사용되고 있다. 이 패키지의 강점은 데이터 가공 및 처리에 유용한 여러 함수를 담고 있으며 많은 부분이 C++ 기반으로 작성되어 속도가 빠르다. 대표적으로 사용되고 있는 함수는 아래와 표와 같다.
- muate( ): 기존 변수의 값을 바탕으로 새로운 파생 변수 추가
- select( ): 변수 이름을 바탕으로 특정 변수(열) 추출
- filter( ): 특정 값(조건)에 따라 케이스(행) 추출
- summarise( ): 여러 값에 대한 기초 통계 값 산출
- arrange( ): 특정 기준에 따라 케이스(행) 정렬
3. dplyr 패키지 설치 및 실행
dplyr 패지키는 R에 내장되는 함수가 아니므로 추가적으로 패키지를 설치하고 입력하는 과정이 필요하다. R에서 패키지를 설치하고 불러오는 방법은 아래와 같다.
# dplyr 패키지 설치
install.packages("dplyr")
# dplyr 패키지 실행
library(dplyr)
'R Programming > dplyr 패키지' 카테고리의 다른 글
group_by( ) 와 summarise( ) 함수: 그룹별 요약 (0) | 2022.08.11 |
---|---|
mutate( ) 함수: 파생변수 추가 (0) | 2022.08.09 |
arrange( ) 함수: 케이스(행) 정렬 (0) | 2022.08.09 |
select( ) 함수: 변수 추출 (0) | 2022.08.08 |
filter( ) 함수: 케이스(행) 추출 (0) | 2021.02.25 |
댓글