Chapter 04. 다양한 분류 알고리즘

https://colab.research.google.com/drive/1U4QKLW1KFxLAOC5gpm-VO1XKRAjDhPcj?usp=sharing

기본 미션

04-1 확인문제 2번에 대한 풀이 과정 설명
1. 로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수는 무엇인가요? ① 시그모이드 함수 ② 소프트맥스 함수 ③ 로그 함수 ④ 지수 함수

$$ z=w_1x_1+w_2x_2+\dots+w_nx_n+b $$

x: 특성, w: 가중치, b: 절편

$$ \phi = \frac{1}{1+e^{-z}} $$

⇨ 로지스틱 회귀는 각 특성의 계수와 절편을 활용해 (좌측과 같은) 선형 방정식을 구성하고, 이를 학습합니다. 학습된 선형 방정식의 출력 z를 (우측과 같은) 시그모이드 함수 𝜙 에 입력하여, z를 0부터 1 사이의 확률값으로 변환합니다. 이렇게 계산된 확률값을 기반으로, 데이터가 양성 클래스에 속할 가능성을 판단합니다. 사이킷런에서는 기본적으로 확률값이 0.5 초과인 경우 양성 클래스, 0.5 이하인 경우 음성 클래스로 분류합니다.

추가 미션

04-2 과대적합/과소적합 Colab 화면 캡처하기

실습 내용

LuckyBag_01.ipynb - Colab.pdf

LuckyBag_02.ipynb - Colab.pdf

LuckyBag_02_example.ipynb - Colab.pdf

공부 내용 회고

여러 용어가 등장한 이번 장이지만 앞으로의 머신러닝과 딥러닝 공부에 있어서는 기반되는 내용이니 잘 읽어야 되겠다는 생각이 들었다. 확률적 경사 하강법, 시그모이드 함수, 소프트맥스 함수, (분류)로지스틱 손실 함수, 교차엔트로피 손실 함수, (회귀)평균제곱 오차, 에포크 등등… 각종 용어들이 등장으로 인해 머리가 살짝 어지러운 기분이 들긴 하지만 시험보는 공부가 아닌 만큼 달달 외울 필요는 없다고 생각한다. 다만 책에서 관련 내용을 언급할 때, scikit-learn, NumPy, SciPy 등 관련 라이브러리를 활용한 코드가 있으니 이런 걸 쓰구나라는 이해가 필요하다.

5장에서는 머신러닝에서 가장 뛰어난 성능을 내는 알고리즘을 배운다고 한다. 빅분기 실기에서 제2유형에 활용했던 모델인 랜덤 포레스트와 XGBoost 가 있어 보이는데 그 때 그 기억을 떠올려가면서 공부하는 시간이 되었으면 한다.