본문 바로가기

Machine Learning2

[데이터 전처리] 교차 검증 교차 검증이란 무엇이고 왜 사용해야 하는가? 데이터 분석에서 널리 사용되는 홀드아웃 검증(Holdout Validation) 방법은 직관적이고 편리하다는 장점이 있다. 이러한 방법은 일반적으로 전체 데이터를 모델 훈련을 위한 훈련 데이터와 모델 성능을 검증하기 위한 테스트 데이터로 분할한다. 그중에서 훈련 데이터의 일부를 분할하여 최적의 파라미터를 탐색하기 위한 검증 데이터로 사용한다. 그러나, 모델 훈련에 사용할 수 있는 훈련 데이터가 작으면 잠재적으로 모델의 정확도를 감소시키는 문제가 발생한다. 반대로 검증 데이터가 지나치게 작으면 모델을 효과적으로 평가하기 어려운 문제가 존재한다. 이를 해결하기 위한 방법으로는 모델을 반복적으로 검증하기 위해 전체 훈련 데이터를 분할하여 여러 개의 훈련 및 검증 데.. 2022. 11. 4.
[데이터 전처리] 훈련 및 테스트 데이터 분할 훈련 및 테스트 데이터 분할은 무엇을 의미하는가? 일반적으로 전체 데이터를 여러 개 집합으로 분할하고 그중에서 일부는 모델을 훈련할 때 사용하고 나머지는 모델 성능을 평가할 때 사용된다. 본 포스팅은 모델을 구축하고 검증하기 위한 데이터 분할 방법에 중점을 두고 있다. 그럼 데이터 분석에서 데이터 분할은 무엇인가? 일반적으로 데이터 분할은 전체 데이터를 다음과 같은 3개의 집합으로 분할하는 과정을 의미한다. 훈련 데이터: 개발한 모델을 훈련할 때 사용 검증 데이터: 개발한 모델의 최적의 하이퍼 파라미터를 찾을 때 사용 테스트 데이터: 최종 모델의 성능을 평가할 때 사용 훈련 및 테스트 데이터의 역할은 무엇인가? 개발을 완료한 모델에 새로운 데이터를 입력했을 때 일반화된 성능을 나타내는지를 확인하는 가장 .. 2022. 11. 2.