본문 바로가기

데이터 분석2

[데이터 전처리] 훈련 및 테스트 데이터 분할 훈련 및 테스트 데이터 분할은 무엇을 의미하는가? 일반적으로 전체 데이터를 여러 개 집합으로 분할하고 그중에서 일부는 모델을 훈련할 때 사용하고 나머지는 모델 성능을 평가할 때 사용된다. 본 포스팅은 모델을 구축하고 검증하기 위한 데이터 분할 방법에 중점을 두고 있다. 그럼 데이터 분석에서 데이터 분할은 무엇인가? 일반적으로 데이터 분할은 전체 데이터를 다음과 같은 3개의 집합으로 분할하는 과정을 의미한다. 훈련 데이터: 개발한 모델을 훈련할 때 사용 검증 데이터: 개발한 모델의 최적의 하이퍼 파라미터를 찾을 때 사용 테스트 데이터: 최종 모델의 성능을 평가할 때 사용 훈련 및 테스트 데이터의 역할은 무엇인가? 개발을 완료한 모델에 새로운 데이터를 입력했을 때 일반화된 성능을 나타내는지를 확인하는 가장 .. 2022. 11. 2.
R 기초: R 프로그램 및 R Studio 설치 방법(windows 버전) R를 이용하여 데이터 분석을 하기 위해서는 기본적으로 R Basic 프로그램과 R Studio를 설치해야 한다. 처음 입문하시는 분들은 아래 정리한 내용을 보고 R 프로그램과 R Studio의 차이를 이해하시고 설치를 진행하시길 바란다. ** R이란? R은 오픈소스 프로그램으로 누구나 무료로 다운로드 받아 사용할 수 있음. https://cran.r-project.org/ 또는 https://www.r-project.org/에서 다운로드 받을수 있음. 컴퓨터 운영체제(Windows/Linux/Mac)에 맞는 프로그램을 다운로드 받고 설치를 진행하면 됨. Previous releases를 클릭하면 최신 버전이 아닌, 이전 버전의 R을 다운로드 받아 설치할 수도 있음 (2019년 10월 30일 기준 최신 버.. 2019. 10. 30.