R에서 CSV 파일 형태의 데이터를 불러와 객체 형태로 저장할 때 사용되는 함수이다. 일반적으로 분석에 사용되는 대부분의 데이터는 정형적 구조를 가지고 있으며, 기본적으로 CSV 파일 형태로 저장되어 있다. CSV(comma-separated values) 파일은 각 열(column)을 쉼표로 구분한 텍스트 파일로 대부분의 프로그램에서 사용하고 있다. 구체적인 사용 방법은 아래와 같다.
1. CSV 파일 입력
R에 내장된 read.csv( ) 함수를 사용하여 CSV 파일 형태의 데이터를 불러와 데이터 프레임 형태의 객체로 저장한다. 본격적으로 분석을 진행하기 전에 작업 경로(Working Directory)를 지정하면 데이터를 읽거나 저장할 때 효율적으로 작업을 수행할 수 있다.
아래 예시는 내장 함수를 사용하여 데이터를 불러오는 기본적인 방법이다.
# 데이터를 불러와서 처음 6개 행을 확인
> df <- read.csv("mpg.csv")
> head(df)
manufacturer model displ year cyl trans drv cty hwy fl class
1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compact
2 audi a4 1.8 1999 4 manual(m5) f 21 29 p compact
3 audi a4 2.0 2008 4 manual(m6) f 20 31 p compact
4 audi a4 2.0 2008 4 auto(av) f 21 30 p compact
5 audi a4 2.8 1999 6 auto(l5) f 16 26 p compact
6 audi a4 2.8 1999 6 manual(m5) f 18 26 p compact
사용자가 다른 형태로 데이터를 불러오기 위해서는 추가적으로 인자(Argument)를 지정해야 한다. 기본적으로 많이 사용되는 인자는 다음과 같다.
1.1 header 인자
read.csv( ) 함수는 header 인자의 기본값을 header = TRUE로 설정하고 있다. 즉, 불러온 파일의 첫 번째 행의 값을 열 이름(column names)으로 설정하여 사용한다.
> # header 인자를 설정하지 않은 첫번째 행의 출력 결과
> df[1, ]
manufacturer model displ year cyl trans drv cty hwy fl class
1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compact
반대로 데이터의 첫 번째 행에 열 이름이 없거나 사용하지 않을 경우 header = FALSE로 설정한다.
> # header = FALSE로 설정했을 경우 첫번째 행의 출력 결과
> df <- read.csv("mpg.csv", header = FALSE)
> df[1, ]
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11
1 manufacturer model displ year cyl trans drv cty hwy fl class
1.2 stringsAsFactors 인자
read.csv( ) 함수는 header 인자의 기본값을 header = TRUE로 설정하고 있다. 즉, 불러온 파일의 첫 번째 행의 값을 열 이름(column names)으로 설정하여 사용한다.
'R Programming > R Basic' 카테고리의 다른 글
R 기초: R 프로그램 및 R Studio 설치 방법(windows 버전) (0) | 2019.10.30 |
---|
댓글