본문 바로가기
R Programming/dplyr 패키지

dplyr 패키지 개요 및 설치

by 블루드래곤 2021. 2. 23.
728x90

1. dplyr 패키지 개요

R에서 기본적으로 제공하는 함수 외에 외부에서 제공하는 다양한 패키지를 사용한다면 데이터 처리와 가공 과정을 조금 더 편리하게 할 수 진행할 수 있다. 대표적으로 dplyr, tidyr, ggplot2 등 패키지들이 많이 사용되고 있다. 아래는 데이터 처리 단계에서 대표적으로 사용하는 dplyr 패키지에 대하여 설명한다.

 

 

출처: dplyr (https://dplyr.tidyverse.org/)

2. dplyr 패키지 함수

dplyr 패지키는 reshape2, tidyr, ggplot2 등 패키지와 함께 Hadley Wickham이 개발하여 배포하고 있으며, 현재 데이터 가공 및 처리 단계에서 많이 사용되고 있다. 이 패키지의 강점은 데이터 가공 및 처리에 유용한 여러 함수를 담고 있으며 많은 부분이 C++ 기반으로 작성되어 속도가 빠르다. 대표적으로 사용되고 있는 함수는 아래와 표와 같다.

  • muate( ): 기존 변수의 값을 바탕으로 새로운 파생 변수 추가
  • select( ): 변수 이름을 바탕으로 특정 변수(열) 추출
  • filter( ): 특정 값(조건)에 따라 케이스(행) 추출 
  • summarise( ): 여러 값에 대한 기초 통계 값 산출
  • arrange( ): 특정 기준에 따라 케이스(행) 정렬

3. dplyr 패키지 설치 및 실행

dplyr 패지키는 R에 내장되는 함수가 아니므로 추가적으로 패키지를 설치하고 입력하는 과정이 필요하다. R에서 패키지를 설치하고 불러오는 방법은 아래와 같다.

# dplyr 패키지 설치
install.packages("dplyr")

# dplyr 패키지 실행
library(dplyr)

댓글