본문 바로가기

데이터 분할2

[sklearn 패키지] train_test_split 함수(데이터 분할) 모델을 훈련하고 성능을 측정하기 위해서는 전체 데이터를 훈련, 검증 및 테스트 데이터 분할하는 작업이 필요하다. 데이터 분할에 대한 구체적인 내용은 아래 포스팅을 참고하길 바란다. sklearn 패키지는 이러한 작업을 효율적으로 수행하는 train_test_split 함수를 제공하고 있다. 본 포스팅에서는 iris 데이터를 사용하여 데이터 분할에 대한 다양한 예시를 살펴보고자 한다. 2022.11.02 - [Machine Learning/데이터 전처리] - [데이터 전처리] 훈련 및 테스트 데이터 분할 iris 데이터 # 라이브러리 로딩 import pandas as pd from sklearn.datasets import load_iris # 데이터 로딩 및 데이터 프레임으로 변환 iris = load.. 2022. 11. 5.
[데이터 전처리] 훈련 및 테스트 데이터 분할 훈련 및 테스트 데이터 분할은 무엇을 의미하는가? 일반적으로 전체 데이터를 여러 개 집합으로 분할하고 그중에서 일부는 모델을 훈련할 때 사용하고 나머지는 모델 성능을 평가할 때 사용된다. 본 포스팅은 모델을 구축하고 검증하기 위한 데이터 분할 방법에 중점을 두고 있다. 그럼 데이터 분석에서 데이터 분할은 무엇인가? 일반적으로 데이터 분할은 전체 데이터를 다음과 같은 3개의 집합으로 분할하는 과정을 의미한다. 훈련 데이터: 개발한 모델을 훈련할 때 사용 검증 데이터: 개발한 모델의 최적의 하이퍼 파라미터를 찾을 때 사용 테스트 데이터: 최종 모델의 성능을 평가할 때 사용 훈련 및 테스트 데이터의 역할은 무엇인가? 개발을 완료한 모델에 새로운 데이터를 입력했을 때 일반화된 성능을 나타내는지를 확인하는 가장 .. 2022. 11. 2.