선릉역 1번 출구
4-1 본문
로지스틱 회귀(logistic regression)
이름은 회귀이지만 분류모델로 선형 회귀와 동일하게 선형 방정식을 학습한다.
로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사하다. 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (classification) 기법으로도 볼 수 있다.
-복습
분류 vs 회귀 (둘 다 지도 학습)
분류는 범주형 데이터일 때, 종속변수가 이름이나 문자일 때 사용함
회귀는 양적 데이터일 때, 종속변수가 숫자일 때 사용함
-> 로지스틱 함수는 종속변수가 범주형 데이터(분류임)
선형 회귀와 로지스틱 회귀 차이점
http://hleecaster.com/ml-logistic-regression-concept/
우리의 데이터의 열을 보면 총 5개의 특성을 가지고 있다.(weight, length, diagonal, height, width)
로지스틱 회귀의 경우 선형 방정식을 학습하기 때문에 우리는 식을
z = a x (weight)+ b x (length) + c x (diagonal) + d x (height) + e x (width) + f 로 표현할 수 있는데 여기서 a, b, c, d, e는 가중치 혹은 계수다. z는 어떤 값도 가능하지만 확률은 0~1(0~100%)로 표현돼야 하기 때문에 시그모이드 함수(sigmoid function)를 사용한다.
시그모이드 함수를 보면 z가 무한하게 큰 음수일 때는 0에 수렴하고 무한하게 큰 양수일 때는 1에 수렴한다는 것을 볼 수 있다. 즉 이 시그모이드 함수를 사용해 우리는 확률을 표현할 수 있게 된다.
다중 로지스틱 회귀의 경우 시그모이드 함수가 아닌 소프트맥스 함수를 사용한다.