라벨이 샘플링 편향인 게시물 표시

[머신러닝] 지도 학습과 샘플링 편향

이미지
지도 학습과 샘플링 편향 지도 학습이란? 지도 학습은  입력 데이터 와  타깃 데이터를  전달하여 모델을 훈련한 후 새로운 데이터를 예측하는데 활용하는 학습이다. 타깃 데이터 는  입력 데이터 에 대한 정답이다. 예를 들어  입력 데이터 가 포도라면  타깃 데이터 는 grapes, 바나나라면 banana 라고 데이터에 대한 명시적인 정답을 정해 주는 거다. 모델을 훈련 시키고  새로운 데이터 가 나타나 어떤 데이터인지 예측 할 때  타깃 데이터 를 기준으로 분류한다. 위에 그림으로 예시 들어보자. 1.  Input 과  Annotations 가 각각  입력 데이터 와  타깃 데이터 다. 즉 포도 그림들은  입력 데이터 이며 정답으로 사용될  타깃 데이터 는  These are grapes 라는 문장이다. 입력 데이터와 타깃 데이터로 Model(모델)을 훈련 시킨다. 2.  Model 을 훈련 시킨 후  새로운 데이터 를  predition (예측)하면 포도 그림 = grapes 이므로  새로운 데이터 는 it's Grapes 라고 예측 할 수 있다. 즉 지도 학습 은 훈련한 모델 기반으로 새로운 데이터가 나타났을 때 어떤 데이터로 분류 되는지 예측 하는데 사용된다. 대표적인 지도 학습 알고리즘으로는 K-최근접 이웃 이 있다. 지도 학습, 비지도 학습, 강화 학습의 차이점을 보려면 아래 링크에서 보면 된다. https://skypirateking.blogspot.com/2023/08/blog-post_23.html 샘플링 편향이란? 머신러닝을 만들때 주의해야 할 점이 몇가지 있다. 그중 하나가 샘플링 편향이다. 샘플링 편향은 데이터 수집 과정에서 무작위로 샘플을 추출하지 않아서 발생하는 문제를 말한다...