목록전체 글 (542)
선릉역 1번 출구
자연어 처리는 크게 어떤 문제를 해결하려고 하느냐에 따라 분류된다. 어떤 문제가 있는지 그리고 각 문제에 대한 내용을 먼저 살펴보려고한다. 그 전에 단어표현이라는 것에 대해서 알아보자. 단어표현이란 모든 자연어 처리 문제의 기본 바탕이 되는 개념으로 자연어를 어떻게 표현할지 정하는 것이 각 문제를 해결하기 위한 출발점이 된다. (모든 데이터 과학 분야에서 데이터를 이해하는 것이 가장 중요하다) 자연어 처리에서 가장 중요한 포인트가 되는 것은 '컴퓨터에게 자연어를 어떻게 인식시킬 수 있을까?'이다. 컴퓨터가 텍스트를 인식하는 기본적인 방법은 여타 값들과 동등하게 이진화된 값으로 받아들인다. text는 유니코드를 사용해서 인식할 수 있게 된다. 하지만 자연어 처리에서 이 방법을 사용하는데는 무리가 있다. 문..
선형 회귀는 하나의 특성을 사용해서 훈련 시키는 것이고 다항 회귀는 비선형일 때 비선형 데이터를 학습시키기 위해 선형 모델을 활용하는 것이다. 다항 회귀와 다중 회귀가 많이 헷갈리는 데 다항 회귀는 독립 변수 x의 차수를 높이는 것이고 다중 회귀는 독립 변수 x1, x2, .. 다중의 독립 변수가 쓰이는 것을 말한다. 즉 여러 개의 특성을 사용한 선형 회귀를 다중 회귀(multiple regression)라고 한다. 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업을 특성 공학(featurn engineering)이라고 한다. import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') perch_full = df.to_numpy() imp..
K-최근접 이웃 회귀 알고리즘은 한계가 존재한다. 저번 3-1에서 다뤘던 똑같은 데이터를 가지고 한계점을 설명해보겠다. import numpy as np perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, ..
회귀(regression)란 분류(classification)처럼 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자(값)를 예측하는 것이다. 두 변수 사이의 상관관계를 분석하는 방법이라고도 한다. 간단하게 농어의 산점도를 그렸다. import numpy as np perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, ..