본문 바로가기
R Programming/R Basic

R Basic: CSV 파일 입력

by 블루드래곤 2021. 2. 23.
728x90

R에서 CSV 파일 형태의 데이터를 불러와 객체 형태로 저장할 때 사용되는 함수이다. 일반적으로 분석에 사용되는 대부분의 데이터는 정형적 구조를 가지고 있으며, 기본적으로 CSV 파일 형태로 저장되어 있다. CSV(comma-separated values) 파일은 각 열(column)을 쉼표로 구분한 텍스트 파일로 대부분의 프로그램에서 사용하고 있다. 구체적인 사용 방법은 아래와 같다.

1. CSV 파일 입력

R에 내장된 read.csv( ) 함수를 사용하여 CSV 파일 형태의 데이터를 불러와 데이터 프레임 형태의 객체로 저장한다. 본격적으로 분석을 진행하기 전에 작업 경로(Working Directory)를 지정하면 데이터를 읽거나 저장할 때 효율적으로 작업을 수행할 수 있다.

 

아래 예시는 내장 함수를 사용하여 데이터를 불러오는 기본적인 방법이다.

# 데이터를 불러와서 처음 6개 행을 확인
> df <- read.csv("mpg.csv")
> head(df)
  manufacturer model displ year cyl      trans drv cty hwy fl   class
1         audi    a4   1.8 1999   4   auto(l5)   f  18  29  p compact
2         audi    a4   1.8 1999   4 manual(m5)   f  21  29  p compact
3         audi    a4   2.0 2008   4 manual(m6)   f  20  31  p compact
4         audi    a4   2.0 2008   4   auto(av)   f  21  30  p compact
5         audi    a4   2.8 1999   6   auto(l5)   f  16  26  p compact
6         audi    a4   2.8 1999   6 manual(m5)   f  18  26  p compact

 

사용자가 다른 형태로 데이터를 불러오기 위해서는 추가적으로 인자(Argument)를 지정해야 한다. 기본적으로 많이 사용되는 인자는 다음과 같다.

 

1.1 header 인자

read.csv( ) 함수는 header 인자의 기본값을 header = TRUE로 설정하고 있다. 즉, 불러온 파일의 첫 번째 행의 값을 열 이름(column names)으로 설정하여 사용한다. 

> # header 인자를 설정하지 않은 첫번째 행의 출력 결과
> df[1, ]
  manufacturer model displ year cyl    trans drv cty hwy fl   class
1         audi    a4   1.8 1999   4 auto(l5)   f  18  29  p compact

 

반대로 데이터의 첫 번째 행에 열 이름이 없거나 사용하지 않을 경우 header = FALSE로 설정한다.

> # header = FALSE로 설정했을 경우 첫번째 행의 출력 결과
> df <- read.csv("mpg.csv", header = FALSE)
> df[1, ]
            V1    V2    V3   V4  V5    V6  V7  V8  V9 V10   V11
1 manufacturer model displ year cyl trans drv cty hwy  fl class

 

1.2 stringsAsFactors 인자

read.csv( ) 함수는 header 인자의 기본값을 header = TRUE로 설정하고 있다. 즉, 불러온 파일의 첫 번째 행의 값을 열 이름(column names)으로 설정하여 사용한다. 

 

댓글