Doyun-lab

[ML] SVD / PCA / LDA ๋ณธ๋ฌธ

Study/Machine Learning

[ML] SVD / PCA / LDA

Doyun+ 2021. 6. 21. 22:05

๐–ฒ๐–ต๐–ฃ, ๐–ฏ๐–ข๐–  …

โ€‹

๐–ก๐–บ๐—Œ๐–พ, ๐–ข๐—ˆ๐—ˆ๐—‹๐–ฝ๐—‚๐—‡๐–บ๐—๐–พ ๐–ฒ๐—’๐—Œ๐—๐–พ๐—†

= ๋ฒกํ„ฐ๊ณต๊ฐ„ V์— ๋Œ€ํ•ด ์ž„์˜์˜ ๋ฒกํ„ฐ์ง‘ํ•ฉ S๊ฐ€ ์„œ๋กœ 1์ฐจ ๋…๋ฆฝ์ด๋ฉด์„œ V๋ฅผ ์ƒ์„ฑํ•˜๋ฉด S๋ฅผ V์˜ ๊ธฐ์ €๋ผ๊ณ  ํ•จ

ex) 2์ฐจ์› ์ขŒํ‘œ๊ณ„์˜ ๊ธฐ์ € = x์ถ•, y์ถ• / 3์ฐจ์› ์ขŒํ‘œ๊ณ„์˜ ๊ธฐ์ € = x์ถ•, y์ถ•, z์ถ•

โ€‹

โ€‹๐–ค๐—‚๐—€๐–พ๐—‡๐—๐–บ๐—…๐—Ž๐–พ, ๐–ค๐—‚๐—€๐–พ๐—‡๐—๐–พ๐–ผ๐—๐—ˆ๐—‹

= ํ–‰๋ ฌ A์— ๋Œ€ํ•ด Ax = λx๋ฅผ ๋งŒ์กฑํ•˜๋ฉด, λ๋Š” ๊ณ ์œ ๊ฐ’(Scalar), x๋Š” ๊ณ ์œ ๋ฒกํ„ฐ

- ํ–‰๋ ฌ A๊ฐ€ x์— ๋Œ€ํ•œ ํ™•๋Œ€/์ถ•์†Œ ๋ณ€ํ™˜์„ ๊ฐ€ํ•˜๋Š” ์—ฐ์‚ฐ์ž

- ์„ ํ˜•๋ณ€ํ™˜์—๋Š” ํ™•๋Œ€/์ถ•์†Œ/ํšŒ์ „ ๋“ฑ์ด ๊ฐ€๋Šฅ, ํ™•๋Œ€/์ถ•์†Œ๋งŒ ๊ฐ€ํ•˜๋Š” ๊ฒฝ์šฐ x๊ฐ€ ๊ณ ์œ ๋ฒกํ„ฐ๊ฐ€ ๋จ

- ํ™•๋Œ€/์ถ•์†Œํ•˜๋Š” ๋น„์œจ์ด ๊ณ ์œ ๊ฐ’์ด ๋จ

 

 

๐–ฑ๐–บ๐—‡๐—„

- Column Rank (์—ด ๊ณ„์ˆ˜) : ์„ ํ˜•๋…๋ฆฝ์ธ ์—ด ๋ฒกํ„ฐ์˜ ์ตœ๋Œ€ ๊ฐœ์ˆ˜

- Row Rank (ํ–‰ ๊ณ„์ˆ˜) : ์„ ํ˜•๋…๋ฆฝ์ธ ํ–‰ ๋ฒกํ„ฐ์˜ ์ตœ๋Œ€ ๊ฐœ์ˆ˜

โ€‹

โ€‹

๐–ค๐—‚๐—€๐–พ๐—‡๐–ต๐–บ๐—…๐—Ž๐–พ ๐–ฃ๐–พ๐–ผ๐—ˆ๐—†๐—‰๐—ˆ๐—Œ๐—‚๐—๐—‚๐—ˆ๐—‡

= N x N ํฌ๊ธฐ์˜ ์ •๋ฐฉํ–‰๋ ฌ A์— ๋Œ€ํ•˜์—ฌ, 3๊ฐœ์˜ ํ–‰๋ ฌ์˜ ๋‚ด์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๊ธฐ

- Matrix Factorization ๊ธฐ๋ฒ• (์กฐ๊ฑด : n๊ฐœ์˜ 1์ฐจ ๋…๋ฆฝ์ธ ๊ณ ์œ ๋ฒกํ„ฐ)

 

๊ธฐ์ € v1, v2๋กœ ๋Š˜๋ฆฌ๊ณ  ์ค„์ธ ๋ณ€ํ™˜

โ€‹

๐–ฒ๐–ฃ๐–ต

= Singular Value Decomposition

- M x N ํฌ๊ธฐ์˜ ํ–‰๋ ฌ A์— ๋Œ€ํ•ด, 3๊ฐœ์˜ ํ–‰๋ ฌ์˜ ๋‚ด์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๊ธฐ

- ์ฐจ์›์„ ๋†’์ด๋”๋ผ๋„ ์–‘์€ ๊ทธ๋Œ€๋กœ (2์ฐจ์› ๊ณต๊ฐ„๊ณผ 4์ฐจ์› ๊ณต๊ฐ„)

 

  • SVD ์ข…๋ฅ˜โ€‹

- ์‹ค์ œ๋กœ Full SVD๋ณด๋‹ค, ์ถ•์•ฝ๋œ(Reduced SVD) ๊ฒƒ ๋งŽ์ด ํ™œ์šฉ

 

  • SVD ํ™œ์šฉ

- ํ•ด์ƒ๋„๋ฅผ ๋–จ์–ด๋œจ๋ ค ์šฉ๋Ÿ‰ ๋‚ฎ์ถ”๊ธฐ

- ์••์ถ•

โ€‹

โ€‹

๐–ฏ๐–ข๐– 

= Principal Component Analysis

- ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ฃผ์„ฑ๋ถ„(์ถ•) ์ฐพ๊ธฐ (๋ฐ์ดํ„ฐ ํŒจํ„ด์„ ์ž˜ ํ‘œํ˜„ํ•ด์ฃผ๋Š” ์ตœ์ ์˜ Feature ์กฐํ•ฉ์„ ์ฐพ๊ธฐ)

- Feature Selection or Feature Dimension Reduction์— ์‚ฌ์šฉ

 

· PCA ๊ตฌํ•˜๊ธฐ

- 1) ๋ฐ์ดํ„ฐ๋“ค์˜ ํ‰๊ท ์œผ๋กœ ์›์ ์„ ๊ฐ€์ •

- 2) ๋ฐ์ดํ„ฐ๋“ค์— ๋Œ€ํ•œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ, ๊ณ ์œ ๊ฐ’, ๊ณ ์œ ๋ฒกํ„ฐ ๊ตฌํ•˜๊ธฐ

> Feature๊ฐ€ m๊ฐœ์ผ ๊ฒฝ์šฐ, ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์€ m x m ํฌ๊ธฐ์˜ ํ–‰๋ ฌ์ด ๋จ

* ๊ณต๋ถ„์‚ฐ์ด๋ž€ ? — ์„ฑ๋ถ„๋“ค์ด ๋™์‹œ์— ์–ผ๋งˆ๋‚˜ ๋Š˜๊ฑฐ๋‚˜ ์ค„์–ด๋“œ๋Š”๊ฐ€

- 3) ๊ณ ์œ ๋ฒกํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๋ฉด, ๊ฐ€์žฅ ํฐ ๋ถ„์‚ฐ์„ ๊ฐ€์ง€๊ฒŒ ๋จ

โ€‹

  • PCA ์ •๋ฆฌ

- ์ด๋ฏธ์ง€ ์••์ถ• ๋“ฑ์˜ ๋ถ„์•ผ์—์„œ ์“ฐ์ผ ์ˆ˜ ์žˆ์Œ

- ๋ถ„์‚ฐ์ด ์ž‘์€ ๊ฒƒ์„ ์ค‘์š”ํ•˜๊ฒŒ ์—ฌ๊ฒจ์•ผํ•˜๋Š” ๋ฐ์ดํ„ฐ์™€ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ ํ•ฉํ•˜์ง€ ์•Š์Œ (๊ณต๋ถ„์‚ฐ์ด ์ค‘์š”ํ•˜๋ฏ€๋กœ)

- ๋ฐ์ดํ„ฐ๋“ค์˜ ๋ถ„์‚ฐ์ด ์ง๊ตํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ์— ์ ํ•ฉํ•˜์ง€ ์•Š์Œ

- Feature Dimension์ด ํฐ ๊ฒฝ์šฐ, ์‚ฌ๋žŒ์ด ๋ณด๋ฉด์„œ ์ง๊ด€์„ ์–ป๊ธฐ ์–ด๋ ต์ง€๋งŒ PCA๋ฅผ ์ด์šฉํ•˜๋ฉด ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์Œ

- PCA, SVD ๋ชจ๋‘ Classifier๊ฐ€ ์•„๋‹˜

โ€‹

โ€‹

๐–ซ๐—‚๐—‡๐–พ๐–บ๐—‹ ๐–ฃ๐—‚๐—Œ๐–ผ๐—‹๐—‚๐—†๐—‚๐—‡๐–บ๐—‡๐— ๐– ๐—‡๐–บ๐—…๐—’๐—Œ๐—‚๐—Œ

= ์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„

- ํด๋ž˜์Šค ๊ฐ„ ๋ถ„์‚ฐ๊ณผ ํด๋ž˜์Šค ๋‚ด ๋ถ„์‚ฐ์˜ ๋น„์œจ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ Feature Dimension ์ถ•์†Œ

- ์ž„์˜์˜ Vector์— Projection ํ–ˆ์„ ๋•Œ ํด๋ž˜์Šค๋“ค์˜ ํŒ๋ณ„์„ ๋” ์ž˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์คŒ

 

- Class ์ค‘์‹ฌ ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ๋Œ€ํ™” ํ•ด์•ผํ•จ

โ€‹

  • LDA ์šฉ๋„

- Class๋“ค ๊ฐ„ ๋ถ„๋ฅ˜๊ฐ€ ์šฉ์ดํ•œ ๋‹ค๋ฅธ Feature ์ถ•์œผ๋กœ ๋ณ€ํ™˜/์ถ•์†Œ

- ๋ถ„๋ฅ˜์— ์ ์šฉ ๊ฐ€๋Šฅ

โ€‹

  • LDA ํ•œ๊ณ„

- ๊ฐ ํด๋ž˜์Šค์˜ ‘์ค‘์‹ฌ’์— ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชฐ๋ ค์žˆ๋‹ค๋Š” ๊ฐ€์ •, ๋น„์„ ํ˜•์œผ๋กœ ๋ถ„ํฌ๋œ ๋ฐ์ดํ„ฐ์—๋Š” ์ ์ ˆ์น˜ ์•Š์Œ

โ€‹

  • PCA vs LDA