2

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Notice

Recent Posts

Link

관리 메뉴

선릉역 1번 출구

2 본문

Computer/AI

2

choideu 2021. 7. 7. 17:19

지도 학습(supervised learning) and 비지도 학습(unsupervised learning)

지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라고 하고 이 둘을 합쳐 훈련 데이터(training data)라고 한다.

1에서 입력으로 사용된 length, weight를 특성(feature)이라고 부른다.

지도 학습의 경우 정답(target)이 있어 알고리즘이 정답을 맞히는 것을 학습하고 비지도 학습의 경우 타깃이 없이 입력 데이터(input)만을 사용하기 때문에 무언가를 맞히는 것이 아닌 데이터를 잘 파악하거나 변형하는 데 도움을 준다.

ex) K-최근접 이웃 알고리즘도 input과 target을 사용했기 때문에 지도 학습 알고리즘임

Important thing

머신러닝에서 가장 중요한 것은 train set과 test set을 나누는 것이다.

말 그대로 train set은 훈련에 사용되는 데이터이고 test set은 평가에 사용되는 데이터이다.

+ 보통 test set은 전체 데이터에서 20~30%를 사용한다.

이때 set을 나누는 것에 있어서 샘플링 편향이라는 문제가 발생하기도 한다. 샘플링 편향(sampling bias)이란 훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않아 샘플링이 한쪽으로 치우쳤다는 의미로 샘플링 편향이 발생하면 제대로 된 지도 학습 모델을 만들 수 없다.

기준 맞추기

fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8,
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0,
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7,
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

import numpy as np

fish_data = np.column_stack((fish_length, fish_weight))
fish_target = np.concatenate((np.ones(35), np.zeros(14)))

from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify = fish_target, random_state = 42)

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()
kn.fit(train_input, train_target)
kn.score(test_input, test_target)

distances, indexes = kn.kneighbors([[25, 150]])

import matplotlib.pyplot as plt
plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(25, 150, marker = '^')
plt.scatter(train_input[indexes,0], train_input[indexes,1], marker='D')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

print(kn.predict([[25, 150]])) //도미가 아닌 빙어로 예측