목록전체 글 (545)
선릉역 1번 출구
선형 회귀는 하나의 특성을 사용해서 훈련 시키는 것이고 다항 회귀는 비선형일 때 비선형 데이터를 학습시키기 위해 선형 모델을 활용하는 것이다. 다항 회귀와 다중 회귀가 많이 헷갈리는 데 다항 회귀는 독립 변수 x의 차수를 높이는 것이고 다중 회귀는 독립 변수 x1, x2, .. 다중의 독립 변수가 쓰이는 것을 말한다. 즉 여러 개의 특성을 사용한 선형 회귀를 다중 회귀(multiple regression)라고 한다. 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업을 특성 공학(featurn engineering)이라고 한다. import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') perch_full = df.to_numpy() imp..

K-최근접 이웃 회귀 알고리즘은 한계가 존재한다. 저번 3-1에서 다뤘던 똑같은 데이터를 가지고 한계점을 설명해보겠다. import numpy as np perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, ..

회귀(regression)란 분류(classification)처럼 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자(값)를 예측하는 것이다. 두 변수 사이의 상관관계를 분석하는 방법이라고도 한다. 간단하게 농어의 산점도를 그렸다. import numpy as np perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, ..

지도 학습(supervised learning) and 비지도 학습(unsupervised learning) 지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라고 하고 이 둘을 합쳐 훈련 데이터(training data)라고 한다. 1에서 입력으로 사용된 length, weight를 특성(feature)이라고 부른다. 지도 학습의 경우 정답(target)이 있어 알고리즘이 정답을 맞히는 것을 학습하고 비지도 학습의 경우 타깃이 없이 입력 데이터(input)만을 사용하기 때문에 무언가를 맞히는 것이 아닌 데이터를 잘 파악하거나 변형하는 데 도움을 준다. ex) K-최근접 이웃 알고리즘도 input과 target을 사용했기 때문에 지도 학습 알고리즘임 Important thing 머신..