본문 바로가기

분류 전체보기13

[sklearn 패키지] train_test_split 함수(데이터 분할) 모델을 훈련하고 성능을 측정하기 위해서는 전체 데이터를 훈련, 검증 및 테스트 데이터 분할하는 작업이 필요하다. 데이터 분할에 대한 구체적인 내용은 아래 포스팅을 참고하길 바란다. sklearn 패키지는 이러한 작업을 효율적으로 수행하는 train_test_split 함수를 제공하고 있다. 본 포스팅에서는 iris 데이터를 사용하여 데이터 분할에 대한 다양한 예시를 살펴보고자 한다. 2022.11.02 - [Machine Learning/데이터 전처리] - [데이터 전처리] 훈련 및 테스트 데이터 분할 iris 데이터 # 라이브러리 로딩 import pandas as pd from sklearn.datasets import load_iris # 데이터 로딩 및 데이터 프레임으로 변환 iris = load.. 2022. 11. 5.
[데이터 전처리] 교차 검증 교차 검증이란 무엇이고 왜 사용해야 하는가? 데이터 분석에서 널리 사용되는 홀드아웃 검증(Holdout Validation) 방법은 직관적이고 편리하다는 장점이 있다. 이러한 방법은 일반적으로 전체 데이터를 모델 훈련을 위한 훈련 데이터와 모델 성능을 검증하기 위한 테스트 데이터로 분할한다. 그중에서 훈련 데이터의 일부를 분할하여 최적의 파라미터를 탐색하기 위한 검증 데이터로 사용한다. 그러나, 모델 훈련에 사용할 수 있는 훈련 데이터가 작으면 잠재적으로 모델의 정확도를 감소시키는 문제가 발생한다. 반대로 검증 데이터가 지나치게 작으면 모델을 효과적으로 평가하기 어려운 문제가 존재한다. 이를 해결하기 위한 방법으로는 모델을 반복적으로 검증하기 위해 전체 훈련 데이터를 분할하여 여러 개의 훈련 및 검증 데.. 2022. 11. 4.
[데이터 전처리] 훈련 및 테스트 데이터 분할 훈련 및 테스트 데이터 분할은 무엇을 의미하는가? 일반적으로 전체 데이터를 여러 개 집합으로 분할하고 그중에서 일부는 모델을 훈련할 때 사용하고 나머지는 모델 성능을 평가할 때 사용된다. 본 포스팅은 모델을 구축하고 검증하기 위한 데이터 분할 방법에 중점을 두고 있다. 그럼 데이터 분석에서 데이터 분할은 무엇인가? 일반적으로 데이터 분할은 전체 데이터를 다음과 같은 3개의 집합으로 분할하는 과정을 의미한다. 훈련 데이터: 개발한 모델을 훈련할 때 사용 검증 데이터: 개발한 모델의 최적의 하이퍼 파라미터를 찾을 때 사용 테스트 데이터: 최종 모델의 성능을 평가할 때 사용 훈련 및 테스트 데이터의 역할은 무엇인가? 개발을 완료한 모델에 새로운 데이터를 입력했을 때 일반화된 성능을 나타내는지를 확인하는 가장 .. 2022. 11. 2.
group_by( ) 와 summarise( ) 함수: 그룹별 요약 데이터 분석 과정에서 월별, 주별 등 그룹별 평균이나 빈도를 계산할 때 group_by( )와 summarise( )함수를 효율적으로 사용할 수 있다. 특히, summarise( ) 함수는 전체 데이터에서 각 변수 혹은 케이스의 값을 요약할 때 사용하기보다는 group_by( ) 함수와 조합해 그룹별 요약 값을 효율적으로 계산할 때 많이 사용하고 있다. 구체적인 계산방법은 아래 예시와 같다. Case 1: summarise( ) 함수를 활용한 각 변수 요약 값 계산 예시: Ozone 변수의 평균을 계산해 Ozone maen이라는 변수명을 할당하여 출력할 경우 Ozone 변수는 결측치를 포함하므로 이를 제외하고 계산하기 위해 na.rm = TRUE를 지정함. > airquality %>% summarise.. 2022. 8. 11.
mutate( ) 함수: 파생변수 추가 데이터의 기존 변수를 바탕으로 새로운 파생변수를 추가하고자 할 때 mutate( ) 함수를 효율적으로 사용할 수 있다. mutate( ) 함수는 기존 변수를 사용하여 연산을 수행하거나 조건문을 적용하여 분석 목적에 적합한 새로운 변수를 데이터 프레임에 직접적으로 추가할 수 있다. 구체적인 사용방법은 아래 예시와 같다. Case 1: 단일 파생변수 추가 예시: Ozone, Solar.R, Wind 등 3개 변수를 모두 합친 새로운 변수를 추가할 경우 mutate( ) 함수의 괄호 안에 파생변수 이름과 연산자를 입력 > airquality %>% mutate(total = Ozone + Solar.R + Wind) %>% head() Ozone Solar.R Wind Temp Month Day total 1.. 2022. 8. 9.