본문 바로가기

R Programming9

group_by( ) 와 summarise( ) 함수: 그룹별 요약 데이터 분석 과정에서 월별, 주별 등 그룹별 평균이나 빈도를 계산할 때 group_by( )와 summarise( )함수를 효율적으로 사용할 수 있다. 특히, summarise( ) 함수는 전체 데이터에서 각 변수 혹은 케이스의 값을 요약할 때 사용하기보다는 group_by( ) 함수와 조합해 그룹별 요약 값을 효율적으로 계산할 때 많이 사용하고 있다. 구체적인 계산방법은 아래 예시와 같다. Case 1: summarise( ) 함수를 활용한 각 변수 요약 값 계산 예시: Ozone 변수의 평균을 계산해 Ozone maen이라는 변수명을 할당하여 출력할 경우 Ozone 변수는 결측치를 포함하므로 이를 제외하고 계산하기 위해 na.rm = TRUE를 지정함. > airquality %>% summarise.. 2022. 8. 11.
mutate( ) 함수: 파생변수 추가 데이터의 기존 변수를 바탕으로 새로운 파생변수를 추가하고자 할 때 mutate( ) 함수를 효율적으로 사용할 수 있다. mutate( ) 함수는 기존 변수를 사용하여 연산을 수행하거나 조건문을 적용하여 분석 목적에 적합한 새로운 변수를 데이터 프레임에 직접적으로 추가할 수 있다. 구체적인 사용방법은 아래 예시와 같다. Case 1: 단일 파생변수 추가 예시: Ozone, Solar.R, Wind 등 3개 변수를 모두 합친 새로운 변수를 추가할 경우 mutate( ) 함수의 괄호 안에 파생변수 이름과 연산자를 입력 > airquality %>% mutate(total = Ozone + Solar.R + Wind) %>% head() Ozone Solar.R Wind Temp Month Day total 1.. 2022. 8. 9.
arrange( ) 함수: 케이스(행) 정렬 데이터 분석 과정에서 특정 변수 값을 바탕으로 데이터를 정렬해야 하는 경우에는 arrange( ) 함수를 적용하면 보다 쉽게 작업을 수행할 수 있다. arrange( ) 함수는 앞서 설명드린 filter, select 함수 등과 조합하여 효율적으로 사용할 수 있다. 구체적인 사용 방법은 아래 예시와 같다. Case 1: 오름차순(기본값) arrange( ) 함수의 괄호 안에 정렬 기준으로 사용할 변수를 입력 예시: Ozone 변수를 기준으로 케이스를 오름차순으로 정렬할 경우 > airquality %>% arrange(Ozone) %>% head(5) Ozone Solar.R Wind Temp Month Day 1 1 8 9.7 59 5 21 2 4 25 9.7 61 5 23 3 6 78 18.4 57 .. 2022. 8. 9.
select( ) 함수: 변수 추출 select( ) 함수는 데이터에 포함된 여러 변수(column)에서 일부 변수만 추출할 때 사용한다. 아래 그림과 같이 데이터 프레임에서 일부 변수를 선택할 수 있다. 구체적인 사용법은 아래 예시와 같다. Case 1: 단일 변수 추출 예시: airquality 데이터에서 Ozone 변수를 선택할 경우 ## 처음 5개 행 출력 > airquality %>% select(Ozone) %>% head() Ozone 1 41 2 36 3 12 4 18 5 NA 6 28 Case 2: 여러 변수 추출 예시: Ozone, Month, Day 등 3개 변수를 선택할 경우 > airquality %>% select(Ozone, Month, Day) %>% head() Ozone Month Day 1 41 5 1 2.. 2022. 8. 8.
filter( ) 함수: 케이스(행) 추출 실제 데이터를 분석할 때 일반적으로 데이터 전체를 사용하여 분석하기도 하지만 분석 목적에 따라 데이터의 일부를 추출해 분석하기도 한다. filter( ) 함수는 주어진 조건에 따라 데이터의 일부 케이스(행)를 추출할 때 많이 사용한다. 아래 그림의 예시와 같이 여러 케이스(행)에서 특정 조건(오렌지색)에 케이스(행)를 추출할 때 유용하게 적용할 수 있다. 아래 구체적인 예시를 통해 특정 조건을 설정하는 여러 방법에 대해 설명하고자 한다. Source: https://llearn.r-journalism.com/en/wrangling/dplyr/dplyr/ 본 포스팅에서는 분석할 때 편리를 위해 R에서 기본적으로 제공하는 airquality 데이터 세트를 사용한다. > airquality head(airqu.. 2021. 2. 25.