본문 바로가기

R Programming9

dplyr 패키지 개요 및 설치 1. dplyr 패키지 개요 R에서 기본적으로 제공하는 함수 외에 외부에서 제공하는 다양한 패키지를 사용한다면 데이터 처리와 가공 과정을 조금 더 편리하게 할 수 진행할 수 있다. 대표적으로 dplyr, tidyr, ggplot2 등 패키지들이 많이 사용되고 있다. 아래는 데이터 처리 단계에서 대표적으로 사용하는 dplyr 패키지에 대하여 설명한다. 출처: dplyr (https://dplyr.tidyverse.org/) 2. dplyr 패키지 함수 dplyr 패지키는 reshape2, tidyr, ggplot2 등 패키지와 함께 Hadley Wickham이 개발하여 배포하고 있으며, 현재 데이터 가공 및 처리 단계에서 많이 사용되고 있다. 이 패키지의 강점은 데이터 가공 및 처리에 유용한 여러 함수를 .. 2021. 2. 23.
R Basic: CSV 파일 입력 R에서 CSV 파일 형태의 데이터를 불러와 객체 형태로 저장할 때 사용되는 함수이다. 일반적으로 분석에 사용되는 대부분의 데이터는 정형적 구조를 가지고 있으며, 기본적으로 CSV 파일 형태로 저장되어 있다. CSV(comma-separated values) 파일은 각 열(column)을 쉼표로 구분한 텍스트 파일로 대부분의 프로그램에서 사용하고 있다. 구체적인 사용 방법은 아래와 같다. 1. CSV 파일 입력 R에 내장된 read.csv( ) 함수를 사용하여 CSV 파일 형태의 데이터를 불러와 데이터 프레임 형태의 객체로 저장한다. 본격적으로 분석을 진행하기 전에 작업 경로(Working Directory)를 지정하면 데이터를 읽거나 저장할 때 효율적으로 작업을 수행할 수 있다. 아래 예시는 내장 함수를.. 2021. 2. 23.
R 기초: sample( ) 함수 * sample( ) 함수: 벡터(vector) 혹은 데이터 프레임(data frame)에서 지정된 크기만큼 데이터를 무작위로 추출할 때 사용하는 함수이다. 이 함수는 트레이닝 데이터 및 테스트 데이터 분할 등 다양한 분야에서 유용하게 사용할 수 있다. 구체적은 사용 방법은 다음과 같다. *기본 사용법(replace = FALSE) 우선 R 공식 사이트에서 제공하는 기본 사용법은 다음과 같다. sample(x, size, replace = FALSE, prob = NULL) 기본 사용법에서 알 수 있듯이 sample( ) 함수의 기본 설정은 한번 추출한 값은 제외하는 비복원 추출(replace = FALSE) 방법을 사용하고 있다. 아래 예제를 통해 기본 사용 방법을 알아보도록 하자. 예제1: 벡터(ve.. 2019. 10. 31.
R 기초: R 프로그램 및 R Studio 설치 방법(windows 버전) R를 이용하여 데이터 분석을 하기 위해서는 기본적으로 R Basic 프로그램과 R Studio를 설치해야 한다. 처음 입문하시는 분들은 아래 정리한 내용을 보고 R 프로그램과 R Studio의 차이를 이해하시고 설치를 진행하시길 바란다. ** R이란? R은 오픈소스 프로그램으로 누구나 무료로 다운로드 받아 사용할 수 있음. https://cran.r-project.org/ 또는 https://www.r-project.org/에서 다운로드 받을수 있음. 컴퓨터 운영체제(Windows/Linux/Mac)에 맞는 프로그램을 다운로드 받고 설치를 진행하면 됨. Previous releases를 클릭하면 최신 버전이 아닌, 이전 버전의 R을 다운로드 받아 설치할 수도 있음 (2019년 10월 30일 기준 최신 버.. 2019. 10. 30.