라벨이 표준점수인 게시물 표시

[머신러닝] 데이터 전처리 - 표준점수

이미지
데이터 전처리 - 표준점수 데이터 전처리란? 데이터 전처리(data preprocessing)란 머신러닝 모델에 훈련 데이터를 주입 하기 전에 가공하는 단계를 말한다. 데이터 전처리 작업을 거치지 않으면 모델의 학습 및 예측이 정확하게 이뤄지지 않을 수가 있다. 아래 그림을 보면 머신러닝 모델을 만드는 순서다. 크게 보면 데이터 준비 -> 데이터 전처리 -> 모델 훈련 -> 모델 평가 순서로 볼 수 있다. 출처 :  https://www.c-sharpcorner.com/article/data-preprocessing-in-machine-learning/ 표준점수란? 표준 점수(standard score)는 데이터 전처리 방법 중 하나다. 표준 점수는 각 특성 값이 평균에서 표준편차의 몇 배 만큼 떨어져 있는지 나타낸다. 표준점수는 이번 게시물에서 다룰 내용이다. 훈련 세트, 테스트 세트 만들기 우선 데이터 전처리 중 표준점수 가 어디에 쓰는지 알기 위해서 모델부터 만들자. K-최근접 이웃 알고리즘 으로 모델을 만들기 위해서 훈련 세트 와 테스트 세트 를 만들자. import numpy as np # 데이터 준비하기 ---------------------------------------------------------- child_height = [ 120 , 122 , 124 , 128 , 130 , 132 , 134 , 136 , 138 , 140 ] # 어린이 특성 child_weight = [ 45 , 47 , 48 , 40 , 50 , 45 , 47 , 48 , 40 , 50 ] adult_height = [ 170 , 175 , 180 , 185 , 190 ] # 어른 특성 adult_weight = [ 300 , 350 , 300 , 400 , 450 ] height = child_height + adult_heigh...