Yeongmin Ko's learning notes
- Classification: KNN, Decision Tree
- Regression: Linear and Logistic Regression
- Clustering: K-Means, Agglomerative Clustering, DBSCAN
-
๊ตฐ์งํ(Clustering): ์๋ก ์ ์ฌํ ๋ฐ์ดํฐ ๊ฐ์ฒด ์งํฉ์ ํ์ ์งํฉ์ผ๋ก ๋ถํ ํ๋ ํ๋ก์ธ์ค(The process of partitioning a set of data objects that are similar to each other into subsets)
-
K-Means(K-ํ๊ท )
-
์๋ ์๊ณ ๋ฆฌ์ฆ
- Step 1. ๊ตฐ์ง์ ๊ฐฏ์ k ๊ฒฐ์ (Determine parameter k (k > 0))
- Step 2. ์ด๊ธฐ ์ค์ฌ์ ์ค์ ์ ์ํด k๊ฐ์ ์ ์ ๋ฌด์์๋ก ์ ํ
- Step 3. ๋ชจ๋ ์ ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ค์ฌ์ ํ ๋นํ์ฌ k๊ฐ์ ํด๋ฌ์คํฐ๋ฅผ ํ์ฑ
- Step 4. ๊ฐ ํด๋ฌ์คํฐ์ ์ค์ฌ์ ์ ๋ค์ ๊ณ์ฐ(๊ฐ ํด๋ฌ์คํฐ์ ํ๊ท ๊ณ์ฐ)
- Step 5. ์ค์ฌ์ด ๋ณํ์ง ์์ ๋๊น์ง 3~4๋จ๊ณ๋ฅผ ๋ฐ๋ณต
-
Agglomerative Clustering(๋ณํฉ ๊ตฐ์ง)
- ์ํฅ์ ์ ๋ต(Bottom-up strategy)
- ๊ฐ ๊ฐ์ฒด๊ฐ ์์ฒด ํด๋ฌ์คํฐ๋ฅผ ํ์ฑํ๋๋ก ํ๋ ๊ฒ๋ถํฐ ์์ํ์ฌ ๋ชจ๋ ๊ฐ์ฒด๊ฐ ๋จ์ผ ํด๋ฌ์คํฐ์ ํฌํจ๋ ๋๊น์ง ํด๋ฌ์คํฐ๋ฅผ ์ ์ ๋ ํฐ ํด๋ฌ์คํฐ๋ก ๋ฐ๋ณต์ ์ผ๋ก ๋ณํฉ
-
์๋ ์๊ณ ๋ฆฌ์ฆ
- Step 1. ๊ฐ ๊ฐ์ฒด๋ ํ๋์ ํด๋ฌ์คํฐ๋ฅผ ํ์ฑ
- Step 2. ๊ฐ์ฅ ๋ฎ์ ์์ค์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ ๊ฐ์ ํด๋ฌ์คํฐ๋ฅผ ํ๋์ ํด๋ฌ์คํฐ๋ก ๋ณํฉ
- Step 3. ๋จ์ผ ํด๋ฌ์คํฐ๊ฐ ๋ ๋๊น์ง 2๋จ๊ณ๋ฅผ ๋ฐ๋ณต
-
DBSCAN(๋ฐ๋ ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ง)
- K ์ต๊ทผ์ ์ด์(K-Nearest Neighbors)
- ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ๊ธฐ์กด ๋ฐ์ดํฐ ์ค ์๋ก์ด ๋ฐ์ดํฐ์ ๋น์ทํ ์์ฑ์ ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฅํ๋ ์๊ณ ๋ฆฌ์ฆ(Classifies unlabeled data points by assigning them the class of similar labeled data points)
- ์๋ ์๊ณ ๋ฆฌ์ฆ
- Step 1. ์ฃผ๋ณ์ ๋ช ๊ฐ์ ๋ฐ์ดํฐ์ ๋น๊ตํ ์ง ํ๋ผ๋ฏธํฐ k ๊ฒฐ์ (Determine parameter k (k > 0))
- Step 2. ์ ๋ฐ์ดํฐ์ ๊ธฐ์กด ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํด์ ๋ ๋ฐ์ดํฐ ๊ฐ์ ์ ์ฌ๋ ๊ตฌํ๊ธฐ(Determine similarity by calculating the distance between a test point and all other points in the dataset)
- Step 3. 2๋จ๊ณ์์ ๊ณ์ฐํ ๊ฑฐ๋ฆฌ ๊ฐ์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ๋ ฌ(Sort the dataset according to the distance values)
- Step 4. k๋ฒ์งธ ์ต๊ทผ์ ์ด์์ ๋ฒ์ฃผ๋ฅผ ๊ฒฐ์ (Determine the category of the k-th nearest neighbors)
- Step 5. ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด k๊ฐ์ ์ต๊ทผ์ ์ด์์ ๋จ์ ๋ค์๊ฒฐ์ ํตํด ๋ฒ์ฃผ๋ฅผ ๊ฒฐ์ (Use simple majority of the category of the k nearest neighbors as the category of a test point)
- ์ฅ์ (advantages)
- ๊ฐ๋จํ๊ณ ์๋์ ์ผ๋ก ํจ๊ณผ์ (Simple and relatively effective)
- ๋จ์ (disadvantages)
- Requires selection of an appropriate k
- k๊ฐ ๋๋ฌด ์์ผ๋ฉด ๋ชจ๋ธ์ด ๋ณต์กํด์ ๊ณผ์ ํฉ(overfitting)์ด ๋ฐ์
- k๊ฐ ๋๋ฌด ํฌ๋ฉด ๋ชจ๋ธ์ด ๋๋ฌด ๋จ์ํด์ ธ์ ๊ณผ์์ ํฉ(underfitting)์ด ๋ฐ์
- Does not produce a model
- ๋ณ๋์ ํ์ต ๋ชจ๋ธ์ ์์ฑํ์ง ์๊ธฐ ๋๋ฌธ์ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ๋งค๋ฒ ๊ณ์ฐ์ด ํ์ํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋์
- Nominal feature and missing data require additional processing
- KNN์ ์ฃผ๋ก ์์นํ ๋ฐ์ดํฐ์ ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ ๋ช ๋ชฉํ ๋ณ์์ ๋ํด์๋ ๋ผ๋ฒจ ์ธ์ฝ๋ฉ์ด๋ ์ํซ ์ธ์ฝ๋ฉ๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์์นํ์ผ๋ก ๋ณํํด์ผ ํ๋ฉฐ ๊ฒฐ์ธก๊ฐ์ ๊ฒฝ์ฐ ๋ณ๋์ ๋ฐฉ์์ผ๋ก ์ ์ฒ๋ฆฌํด์ผ ํ๋ ์ถ๊ฐ ๋น์ฉ์ด ๋ฐ์
- Requires selection of an appropriate k
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' theorem): ์ฌ์ ํ๋ฅ ๊ณผ ์ฌํํ๋ฅ ์ ๊ด๊ณ์ ๋ํด์ ์ค๋ช ํ๋ ์ ๋ฆฌ
- ์ฉ์ด ์ ๋ฆฌ
- ๊ฐ์ค(H, Hypothesis): ๊ฐ์ค ํน์ ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ๋ค๋ ์ฃผ์ฅ
- ์ฆ๊ฑฐ(E, Evidence): ์๋ก์ด ์ ๋ณด
- ์ฐ๋(๊ฐ๋ฅ๋, likelihood) = P(E|H): ๊ฐ์ค(H)์ด ์ฃผ์ด์ก์ ๋ ์ฆ๊ฑฐ(E)๊ฐ ๊ด์ฐฐ๋ ๊ฐ๋ฅ์ฑ
- ํ๋ฅ vs ์ฐ๋
- ํ๋ฅ : ํน์ ๊ฒฝ์ฐ์ ๋ํ ์๋์ ๋น์จ
- ๋ชจ๋ ๊ฒฝ์ฐ์ ๋ํ์ฌ ๋ํ๋ฉด 1์ด ๋จ(Mutually exclusive & exhaustive)
- ์ฐ๋: '๊ฐ์ค'์ ๋ํ ์๋์ ๋น์จ
- ๊ฐ์ค์ ์ผ๋ง๋ ์ง ์ธ์ธ ์ ์๊ณ , ์ฌ์ง์ด ์๋ก๊ฐ์ ํฌํจ๊ด๊ณ๊ฐ ๋ ์๋ ์์(Not mutually exclusive & Not exhaustive)
- ํ๋ฅ : ํน์ ๊ฒฝ์ฐ์ ๋ํ ์๋์ ๋น์จ
- ํ๋ฅ vs ์ฐ๋
- ์ฌ์ ํ๋ฅ (Prior probaility) = P(H): ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ๋ค๋ ์ฃผ์ฅ์ ์ ๋ขฐ๋
- ์ฌํํ๋ฅ (Posterior probability) = P(H|E): ์๋ก์ด ์ ๋ณด๋ฅผ ๋ฐ์ ํ ๊ฐฑ์ ๋ ์ ๋ขฐ๋
- ์๋ ์๊ณ ๋ฆฌ์ฆ
- Step 1. ์ฃผ์ด์ง ํด๋์ค ๋ผ๋ฒจ์ ๋ํ ์ฌ์ ํ๋ฅ (Prior probability)์ ๊ณ์ฐ
- Step 2. ๊ฐ ํด๋์ค์ ๊ฐ ์์ฑ์ผ๋ก ์ฐ๋ ํ๋ฅ (Likelihood probability) ๊ณ์ฐ
- Step 3. ์ด ๊ฐ์ Bayes Formula์ ๋์ ํ๊ณ ์ฌํ ํ๋ฅ (Posterior probability)์ ๊ณ์ฐ
- Step 4. 1~3์ ๊ฒฐ๊ณผ๋ก ์ด๋ค ํด๋์ค๊ฐ ๋์ ์ฌํ ํ๋ฅ ์ ๊ฐ๊ฒ ๋ ์ง ์ ์ ์์(์ ๋ ฅ ๊ฐ์ด ์ด๋ค ํด๋์ค์ ๋ ๋์ ํ๋ฅ ๋ก ์ํ ์ ์์์ง)
- ์ฐ๊ด ๊ท์น(Association Rule)
- ๋ฐ์ดํฐ์์ ๋ณ์ ๊ฐ์ ์ ์๋ฏธํ ๊ท์น์ ๋ฐ๊ฒฌํ๋ ๋ฐ ์ฐ์ด๋ ์๊ณ ๋ฆฌ์ฆ
- e.g., ๋ผ๋ฉด์ ๊ตฌ๋งคํ๋ ๊ณ ๊ฐ์ด ํ๋ฐ์ ํจ๊ป ๊ตฌ๋งคํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
- ์ฐ๊ด์ฑ ๊ท์น ์์ฑ ๊ณผ์
- Step 1. ์ง์ง๋(Support, ๊ต์ฌ๊ฑด)
- ๋ฐ์ดํฐ์์ ํญ๋ชฉ ์งํฉ์ด ์ผ๋ง๋ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋
- Support(X) = Count(X) / N
- Step 2. ์ ๋ขฐ๋(Confidence, ์กฐ๊ฑด๋ถ ํ๋ฅ )
- ์กฐ๊ฑด๋ถ ์์ดํ (A)์ ๊ตฌ๋งคํ ๊ฒฝ์ฐ, ์ด์ค์์ ์ผ๋ง๋ ๊ฒฐ๋ก ๋ถ ์์ดํ (B)์ ๊ตฌ๋งคํ ๊ฒ์ธ์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋
- Confidence(X โ Y) = Support(X, Y) / Support(X)
- Step 1. ์ง์ง๋(Support, ๊ต์ฌ๊ฑด)
- Apriori Algorithm
- ์ฐ๊ด ๊ท์น(association rule)์ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ์ ๋ ํจ๊ป ๋ฐ์ํ๋ ๋ ๋ค๋ฅธ ์ฌ๊ฑด์ ๊ท์น์ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ
- ์๋ ์๊ณ ๋ฆฌ์ฆ
- Step 1. ๋ชจ๋ ํญ๋ชฉ์ ๋น๋๋ฅผ ๊ณ์ฐํ์ฌ ์ต์ ์ง์ง๋(minimum support)๋ฅผ ๋๋ ํญ๋ชฉ๋ค๋ง ๋จ๊น
- Step 2. ๋จ์ ํญ๋ชฉ๋ค์ ์กฐํฉํ์ฌ 2๊ฐ์ ํญ๋ชฉ ์งํฉ์ผ๋ก ์ด๋ฃจ์ด์ง ํ๋ณด ํญ๋ชฉ ์งํฉ์ ๋ง๋ฆ
- Step 3. 2๋จ๊ณ์์ ๋ง๋ ํ๋ณด ํญ๋ชฉ ์งํฉ์ผ๋ก๋ถํฐ ๋น๋๋ฅผ ๊ณ์ฐํ์ฌ ์ต์ ์ง์ง๋๋ฅผ ๋๋ ํญ๋ชฉ๋ค๋ง ๋จ๊น
- Step 4. ํ๋ณด ํญ๋ชฉ ์งํฉ์ด ๋์ด์ ๋์ค์ง ์์ ๋๊น์ง ๋จ์ ํญ๋ชฉ๋ค๋ก๋ถํฐ 2~3๋จ๊ณ๋ฅผ ๋ฐ๋ณต ์ํ
- Step 5. ๊ฐ ๋น๋ฐ ํญ๋ชฉ ์งํฉ์ ๋ํด ๋ชจ๋ ๊ฐ๋ฅํ ์ฐ๊ด ๊ท์น์ ์์ฑํ๊ณ ๊ฐ๊ฐ์ ์ ๋ขฐ๋(confidence)๋ฅผ ๊ณ์ฐํจ
- Step 6. ์ ๋ขฐ๋๊ฐ ์ต์ ์ ๋ขฐ๋(minimum confidence)๋ฅผ ๋๋ ๊ท์น๋ค๋ง ๋จ๊น
- ํ์
ํํฐ๋ง(Collaborative Filtering)
- ์ ํ ๋ฐ ์ฌ์ฉ์ ๊ฐ์ ์ ์ฌ์ฑ์ ๊ฒํ ํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฌ์ฉ์ ์ทจํฅ์ ๋ง๋ ์ ํ์ ์ถ์ฒํด์ฃผ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ์ ๊ธฐ๋ฐ ํ์
ํํฐ๋ง๊ณผ ์์ดํ
๊ธฐ๋ฐ ํ์
ํํฐ๋ง์ผ๋ก ๋ถ๋ฅํ ์ ์์
- e.g., ํน์ ์ฌ์ฉ์์ ๋น์ทํ ์ทจํฅ์ ๊ฐ์ง ์ฌ๋์ด ์ข์ํ๋ ์์ ์ ํน์ ์ฌ์ฉ์๋ ์ข์ํ ๊ฐ๋ฅ์ฑ์ด ๋์
- ์ ํ ๋ฐ ์ฌ์ฉ์ ๊ฐ์ ์ ์ฌ์ฑ์ ๊ฒํ ํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฌ์ฉ์ ์ทจํฅ์ ๋ง๋ ์ ํ์ ์ถ์ฒํด์ฃผ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ์ ๊ธฐ๋ฐ ํ์
ํํฐ๋ง๊ณผ ์์ดํ
๊ธฐ๋ฐ ํ์
ํํฐ๋ง์ผ๋ก ๋ถ๋ฅํ ์ ์์
- Recommendation Systems Applications
Amazon | Netflix | Watcha |
---|---|---|
-
์ฌ์ฉ์ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง(User-based filtering)
-
Basic idea: ํ๊ฒ ์ฌ์ฉ์์ ๊ด์ฌ์ฌ๊ฐ ๊ฐ์ ์ ์ฌ ์ฌ์ฉ์ ์ฐพ๊ธฐ
- e.g., ์ํ ์ถ์ฒ ์์คํ ์์ ํ ์ฌ์ฉ์๊ฐ ํน์ ์ํ์ ๋์ ํ์ ์ ์คฌ๋ค๋ฉด, ์ด์ ๋น์ทํ ์ทจํฅ์ ๊ฐ์ง ์ฌ์ฉ์๋ค์๊ฒ๋ ํด๋น ์ํ๋ฅผ ์ถ์ฒ
-
์ฌ์ฉ์ ๊ฐ์ ์ ์ฌ์ฑ ๊ณ์ฐ(ํผ์ด์จ ์๊ด๊ณ์ ํ์ฉ)
-
์ฌ์ฉ์ A์ B์ ๊ณต๋ถ์ฐ์ ๊ฐ๊ฐ์ ํ์คํธ์ฐจ์ ๊ณฑ์ผ๋ก ๋๋๋ฉด ํผ์ด์จ ์๊ด๊ณ์๋ฅผ ๊ตฌํ ์ ์์
-
-
์์ดํ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง(Item-based filtering)
-
์ฌ์ฉ์ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง์ ์ฅยท๋จ์
- ์ฅ์
- ์ง๊ด์ฑ: ๋์ผํ ์ทจํฅ์ ๊ฐ์ง ์ฌ์ฉ์์ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ฒ์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ์ดํดํ๊ธฐ ์ฌ์
- ๊ฐ์ธํ๋ ์ถ์ฒ: ๋น์ทํ ์ฌ์ฉ์๋ฅผ ์ฐพ์์ผ๋ก์จ ๊ฐ์ธํ๋ ์ถ์ฒ์ด ๊ฐ๋ฅํจ
- ์ ๊ท ์์ดํ ์ถ์ฒ ๊ฐ๋ฅ: ์๋ก์ด ์์ดํ ์ด ์์คํ ์ ์ถ๊ฐ๋๋ฉด ๊ธฐ์กด์ ์ฌ์ฉ์ ์ทจํฅ์ ๋ง์ถ์ด ์ฝ๊ฒ ์ถ์ฒ ๊ฐ๋ฅ
- ๋จ์
- ํ์ฅ์ฑ ๋ฌธ์ : ์ฌ์ฉ์ ์๊ฐ ๋ง์์ง์๋ก ์ ์ฌ๋ ๊ณ์ฐ์ด ๋นํจ์จ์ ์ด๊ฒ ๋ฉ๋๋ค. ํนํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์๋ ๊ณ์ฐ ๋น์ฉ์ด ๋์
- ํฌ์์ฑ ๋ฌธ์ : ์ฌ์ฉ์-์์ดํ ๋งคํธ๋ฆญ์ค๊ฐ ํฌ์ํ ๊ฒฝ์ฐ(๋ง์ ๋น์นธ์ด ์๋ ๊ฒฝ์ฐ) ์ ์ฌํ ์ฌ์ฉ์๋ฅผ ์ฐพ๊ธฐ๊ฐ ์ด๋ ค์
- ์ฝ๋ ์คํํธ ๋ฌธ์ : ์๋ก์ด ์ฌ์ฉ์์ ๋ํด ์ถฉ๋ถํ ์ ๋ณด๊ฐ ์์ ๊ฒฝ์ฐ ์ถ์ฒ์ด ์ด๋ ค์
- ์ฅ์
-
์์ดํ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง์ ์ฅยท๋จ์
- ์ฅ์
- ํ์ฅ์ฑ: ์์ดํ ์๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ์ ์๋ณด๋ค ์ ๊ธฐ ๋๋ฌธ์ ์ ์ฌ๋ ๊ณ์ฐ์ด ๋ ํจ์จ์
- ์์ ์ฑ: ์์ดํ ์ ์ ์ฌ๋๋ ์๊ฐ์ ๋ฐ๋ผ ํฌ๊ฒ ๋ณํ์ง ์์ผ๋ฏ๋ก ๋ ์์ ์ ์ธ ์ถ์ฒ์ด ๊ฐ๋ฅํจ
- ํฌ์์ฑ ๋ฌธ์ ํด๊ฒฐ: ์ฌ์ฉ์๊ฐ ์ ์ด๋ ํ๋์ ์์ดํ ์ ํ๊ฐํ๋ค๋ฉด ์ถ์ฒ์ด ๊ฐ๋ฅํจ
- ๋จ์
- ์ ๊ท ์์ดํ ๋ฌธ์ : ์๋ก์ด ์์ดํ ์ ๋ํ ์ ์ฌ๋ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ด๋ ค์ ์ถ์ฒ์ด ํ๋ค ์ ์์
- ๊ฐ์ธํ ๋ถ์กฑ: ์ฌ์ฉ์ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง์ ๋นํด ๊ฐ์ธํ๊ฐ ์ด๋ ค์. ํน์ ์ฌ์ฉ์์ ์ทจํฅ๋ณด๋ค๋ ์์ดํ ์ ์ ๋ฐ์ ์ธ ์ ์ฌ์ฑ์ ์์กดํ๊ธฐ ๋๋ฌธ
- ์ด๊ธฐ ํ์ต ๋น์ฉ: ์ด๊ธฐ ์์ดํ ๊ฐ ์ ์ฌ๋ ๊ณ์ฐ์ ๋ง์ ์๊ฐ์ด ์์๋ ์ ์์
- ์ฅ์
- ์ ํ ํ๊ท(Linear Regression): ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ๋ ๋ฆฝ ๋ณ์(X)์ ์ข ์ ๋ณ์(Y) ๊ฐ์ ์ ํ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ์ฐ์์ ์ธ ๊ฐ์ ์์ธกํ๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ(๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด์ง๋ง ์ธ๊ณต์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ์ด๊ฐ ๋จ)
-
ํผ์ ํธ๋ก (Perceptron): ํผ์ ํธ๋ก ์ ๋จ์ธต ์ ๊ฒฝ๋ง์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํํ๋ก, ์ ํ ํ๊ท์ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ฉ
- ํผ์ ํธ๋ก ์ ์ ๋ ฅ๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ณฑํ ํ, ๊ทธ ํฉ์ ํ์ฑํ ํจ์(์ฃผ๋ก ๊ณ๋จ ํจ์)๋ฅผ ํตํด ์ด์ง ์ถ๋ ฅ์ ์์ฑ
- ์ ์์์์ step์ ๊ฐ์ค์น ํฉ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ต์ข ์ถ๋ ฅ์ ๊ฒฐ์ ํ๋ ๊ณ๋จ ํจ์์ด๊ณ , w๋ ๊ฐ์ค์น ๋ฒกํฐ, ๐ฅ๋ ์ ๋ ฅ ๋ฒกํฐ, ๐๋ ๋ฐ์ด์ด์ค
- ๊ณ๋จ ํจ์(step)์ ์์:
-
์๋ฌ๋ฆฐ(Adaline): ํผ์ ํธ๋ก ๊ณผ ์ ์ฌํ์ง๋ง, ์ถ๋ ฅ์ ํ์ฑํ ํจ์(๊ณ๋จ ํจ์)๋ฅผ ์ ์ฉํ์ง ์๊ณ ์ ํ ํจ์์ ๊ฒฐ๊ณผ๋ฅผ ํ์ต์ ์ฌ์ฉํ๋ ๊ฒ์ด ํน์ง
-
๋ก์ง์คํฑ ํ๊ท(Logistic Regression): ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ ๋ ฅ ๋ณ์๋ค์ ์ ํ ๊ฒฐํฉ์ ๊ตฌํ ํ ์ด๋ฅผ ๋ก์ง ํจ์(๋๋ ๋ก์ง์คํฑ ํจ์)๋ฅผ ํต๊ณผ์์ผ ํ๋ฅ ์ ์์ธก
- ๋ก์ง ํจ์๋ S์ ํํ๋ฅผ ๋ ๋ฉฐ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง. ์ด ํจ์๋ฅผ ํต๊ณผํ ๊ฒฐ๊ณผ๋ ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ๋ก ํด์๋๋ฉฐ, ์ด์ง ๋ถ๋ฅ์์๋ ์์ฑ ํด๋์ค์ ์ํ ํ๋ฅ ๋ก ํด์
- ์ ์์์์ ๐(Y=1)์ ์์ฑ ํด๋์ค์ ์ํ ํ๋ฅ ์ ์๋ฏธํ๋ฉฐ, X๋ ์ ๋ ฅ ๋ณ์, ๐ฝ๋ ํ๊ท ๊ณ์๋ฅผ ๋ํ๋. ๋ชจ๋ธ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ํ๋ฅ ์ ์ต๋ํํ๋ ํ๊ท ๊ณ์๋ฅผ ์ฐพ๊ธฐ ์ํด ์ต๋ ์ฐ๋ ์ถ์ (MLE)๋ฒ์ ์ฌ์ฉ
-
Odds(์ค์ฆ): ์ฑ๊ณต ํ๋ฅ ๊ณผ ์คํจ ํ๋ฅ ์ ๋น์จ โ ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ์ ๊ทธ ์ฌ๊ฑด์ด ๋ฐ์ํ์ง ์์ ํ๋ฅ ๊ณผ ๋น๊ตํ ๊ฐ
- 0๋ถํฐ 1๊น์ง ์ฆ๊ฐํ ๋ ์ค์ฆ ๋น์ ๊ฐ์ ์ฒ์์๋ ์ฒ์ฒํ ์ฆ๊ฐํ๋ค๊ฐ p๊ฐ 1์ ๊ฐ๊น์์ง๋ฉด ๊ธ๊ฒฉํ ์ฆ๊ฐํจ
- Odds Ratio(์ค์ฆ ๋น): p / (1 - p) (p = ์ฑ๊ณต ํ๋ฅ )
- e.g., ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ์ด 80%์ผ ๋์ odds ratio๋?
- 0.8 / (1 - 0.8) = 0.8 / 0.2 = 4
- e.g., ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ์ด 80%์ผ ๋์ odds ratio๋?
-
Logit function(๋ก์ง ํจ์): ์ค์ฆ์ ์์ฐ ๋ก๊ทธ๋ฅผ ์ทจํ ๊ฐ
-
ํ์ฑํ ํจ์: ์ ํ ํจ์๋ฅผ ํต๊ณผ์์ผ ์ป์ ๊ฐ์ ์๊ณ ํจ์์ ๋ณด๋ด๊ธฐ ์ ์ ๋ณํ์ํค๋๋ฐ ํ์ํ ํจ์๋ก, ์ฃผ๋ก ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉ
- Why does Activation function use nonlinear function?
- ์ ํ ํจ์(๋จ์ํ ๊ท์น)์ ๊ฒฝ์ฐ ์ง์ ์ผ๋ก data๋ฅผ ๊ตฌ๋ถํ๋๋ฐ, ์ด๋ ์๋ฌด๋ฆฌ ์ธต์ ๊น๊ฒ ์์๋ ํ๋์ ์ง์ ์ผ๋ก ๊ท์น์ด ํํ๋๋ค๋ ๊ฒ์ ๋ปํจ. ์ฆ, ์ ํ ๋ณํ์ ๊ณ์ ๋ฐ๋ณตํ๋๋ผ๋ ๊ฒฐ๊ตญ ์ ํ ํจ์์ด๋ฏ๋ก ๋ณ ์๋ฏธ๊ฐ ์์.
- ๊ทธ๋ฌ๋, ๋น์ ํ ํจ์์ ๊ฒฝ์ฐ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ๋ณต์กํ ํจํด์ ํ์ตํ ์ ์๊ณ , ๊ณ์ ๋น์ ํ์ ์ ์งํ๊ธฐ ๋๋ฌธ์ ๋ค์ธต ๊ตฌ์กฐ์ ์ ํจ์ฑ์ ์ถฉ์กฑ์ํฌ ์ ์์. ๋ํ, ๋น์ ํ ํจ์๋ ๋๋ถ๋ถ ๋ฏธ๋ถ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ํ์ฑํ ํจ์๋ก ์ ํฉํจ.
- Why does Activation function use nonlinear function?
-
Sigmoid function(์๊ทธ๋ชจ์ด๋ ํจ์)
- ๋จ์ผ์ธต ์ ๊ฒฝ๋ง: ์ ๋ ฅ์ธต๊ณผ ์ถ๋ ฅ์ธต์ผ๋ก ๊ตฌ์ฑ๋ ๊ฐ์ฅ ๊ฐ๋จํ ํํ์ ์ ๊ฒฝ๋ง. ์ฃผ๋ก ํผ์ ํธ๋ก , ์๋ฐ๋ฆฐ, ๋ก์ง์คํฑ ํ๊ท์ ๊ฐ์ ๋ชจ๋ธ๋ค์ ํฌํจํ ์ ์์ผ๋ฉฐ, ๋ค์ํ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ ์ ์์ด ๋น์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์
- ์ ์์์์ f๋ ํ์ฑํ ํจ์(์: ์๊ทธ๋ชจ์ด๋ ํจ์, ReLU ๋ฑ), w๋ ๊ฐ์ค์น ๋ฒกํฐ, ๐ฅ๋ ์ ๋ ฅ ๋ฒกํฐ, ๐๋ ๋ฐ์ด์ด์ค
- Summary
- Accepts a volume of size W1 x H1 x D1
- Requires four hyperparameters:
- Number of filters K(Common settings: powers of 2),
- there spatial extent F,
- the stride S,
- the amount of zero padding
- Produces a volume of size W2 x H2 x D2 where:
- W2 = (W1 - F + 2P)/S + 1
- H2 = (H1 - F + 2P)/S + 1
- D2 = K
- With parameter sharing, it introduces FยทFยทD1 weights per filter, for a total of (FยทFยทD1)ยทK weights and K biases.
- In the output volume, the d-th depth slice (of size W2 x H2) is the result of performing a valid convolution of the d-th filter over the input volume with a stride of S, and then offset by d-th bias.
-
ํผ์ด์จ ์๊ด๊ณ์(Pearson Correlation): -1 ~ 1 ์ฌ์ด์ ๊ฐ๋ฅํ ์ ์ฌ๋(Possible similarity values between -1 and 1)
-
- 1์ ๊ฐ๊น์ธ ์๋ก ์์ ์๊ด๊ด๊ณ
- -1์ ๊ฐ๊น์ธ ์๋ก ์์ ์๊ด๊ด๊ณ
- 0์ ๊ฐ๊น์ธ ์๋ก ์๊ด๊ด๊ณ ์์
- ์ฝ์ฌ์ธ ์ ์ฌ๋: ๋ฒกํฐ ๊ฐ์ ๊ฐ๋๋ฅผ ์ธก์ ํด์ ์ ์ฌ๋ ๊ณ์ฐ
- ๋ด์ ๊ณต์: AยทB = ||A|| * ||B|| * cosฮธ
- ์ ๊ณต์์ ํตํด cosฮธ = AยทB / (||A|| * ||B||) ๋ฅผ ๊ตฌํ ์ ์์
- ํผ๋ํ๋ ฌ(Confusion matrix)
- ํผ๋ํ๋ ฌ: ์์ธก๊ฐ์ด ์ค์ ๊ฐ๊ณผ ์ผ์นํ๋์ง ์ฌ๋ถ์ ๋ฐ๋ผ ๋ถ๋ฅํ ํ(a table that categorizes predictions according to whether they match the actual value)
- The most common performance measures consider the model's ability to discern one class versus all others
- The class of interest is known as the positive
- All others are known as negative
- The relationship between the positive class and negative class predictions can be depicted as a 2 x 2 confusion matrix
- True Positive(TP): Correctly classfied as the class of interest
- True Negative(TN): Correctly classified as not the class of interest
- False Positive(FP): Incorrectly classified as the class of interest
- False Negative(FN): Incorrectly classified as not the class of interest
-
- T์ F์ ๊ฒฝ์ฐ, True(์ฐธ)์ False(๊ฑฐ์ง)์ ๋ํ๋ด๋ฉฐ, ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ด ์ผ์นํ๋ ๊ฒฝ์ฐ T๊ฐ ์ค๊ณ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ F๊ฐ ์ด
- P์ N์ ๊ฒฝ์ฐ, Positive(๊ธ์ )์ Negative(๋ถ์ )์ ๋ํ๋ด๋ฉฐ, ์์ธก๊ฐ์ด ์์ฑ ํด๋์ค(1)์ ๋ํ๋ด๋ ๊ฒฝ์ฐ P๊ฐ ์ค๊ณ ์์ธก๊ฐ์ด ์์ฑ ํด๋์ค(0)์ ๋ํ๋ด๋ ๊ฒฝ์ฐ N์ด ์ด
- e.g., ์์ธก๊ฐ=0, ์ค์ ๊ฐ=0์ธ ๊ฒฝ์ฐ, TN
- e.g., ์์ธก๊ฐ=1, ์ค์ ๊ฐ=0์ธ ๊ฒฝ์ฐ, FP
- ์ ํ๋(Accuracy): 2 x 2 ํผ๋ํ๋ ฌ์์, ์๋์ ๊ฐ์ด ์ ํ๋๋ฅผ ์์ํํ ์ ์์
- ์ค๋ถ๋ฅ์จ(Error rate): ์ค๋ถ๋ฅ์จ์ 1์์ ์ ํ๋๋ฅผ ๋นผ๋ฉด ๋จ
- ์ ๋ฐ๋(Precision): ์ ๋ฐ๋๋ ๋ชจ๋ธ์ ์์ธก๊ฐ์ด ๊ธ์ ์ธ ๊ฒ๋ค ์ค ์ค์ ๊ฐ์ด ๊ธ์ ์ธ ๋น์จ์ ๋ํ๋
- ์ฌํ์จ(Recall): ์ฌํ์จ์ ์ค์ ๊ฐ์ด ๊ธ์ ์ธ ๊ฒ๋ค ์ค ์์ธก๊ฐ์ด ๊ธ์ ์ธ ๋น์จ์ ๋ํ๋
- F ์ ์(F-Score): ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํํ๊ท
- ํ๊ท ์ ๊ณฑ ์ค์ฐจ(Mean Squared Error, MSE)
- ํ๊ท ์ ๋ ์ค์ฐจ(Mean absolute error, MAE)
-
Overfitting / Underfitting
- There is a tradeoff between a model's ability to minimize bias and variance.
- Overfitting: High variance, Low bias
- Underfitting: High bias, Low variance
-
Regularization
- L1 Regularization(Lasso)
- L2 Regularization(Ridge)
-
Optimization
- Gradient Descent
- Stochastic Gradient Descent(SGD)
- Batch Gradient Descent(BGD)
- Mini-batch gradient descent(MSGD)
- Backpropagation
- Gradient Descent