๐๏ธ ๋ฐ์ดํฐ ํ์
๊ธฐ์ด ํต๊ณ๋ ํ์ธ
๐๏ธ ๋ฐ์ดํฐ ํ์ - Data Exploration
๋ฐ์ดํฐ ํ์์ ํต๊ณํ์ ๊ธฐ์ ํต๊ณ(Descriptive Statistics) ๋ถ์ผ์ ์ํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก EDA(Exploratory Data Analysis)๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๐๏ธ ๋ฐ์ดํฐ ํ์ ๊ฐ์
๋ฐ์ดํฐ ํ์(EDA)์ ๋ฐ์ดํฐ ๋ถ์์ ์ฒซ ๋จ๊ณ๋ก, ๋ฐ์ดํฐ์ ํน์ฑ์ ํ์ ํ๊ณ ๋ถ์ ๋ฐฉํฅ์ ์ค์ ํ๋ค. ๋ฐ์ดํฐ์ ํํฉ์ ํ์ ํ์ง ์๊ณ ๋ถ์ํ๋ฉด ์๋ชป๋ ๊ฒฐ๋ก ์ ์ป์ ์ ์๋ค. EDA๋ ๋ฐ์ดํฐ์ ๋ฌธ์ ์ ์ ๋ฐ๊ฒฌํ๊ณ ๋ฐ์ดํฐ์ ๋ถํฌ, ํจํด, ๋ณ์ ๊ฐ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๋ฐ ์ค์ ์ ๋๋ค.
๐๏ธ ๋ฐ์ดํฐ ์ดํด๋ณด๊ธฐ
(์์ฑ ์์ )
๐๏ธ 04-010.๊ธฐ์ ํต๊ณ๋ x
๊ธฐ์ด ํต๊ณ๋ ํ์ธ
๐๏ธ ๊ธฐ์ด ํต๊ณ๋ ํ์ธ
1. ์ฐ์ ํ๊ท (Arithmetic Mean): ๋ชจ๋ ๊ฐ์ ๋ํ ํ ๊ฐ์๋ก ๋๋ ๊ฐ์ผ๋ก, ๊ฐ์ฅ ํํ ์ฌ์ฉ๋๋ ํ๊ท ์ด๋ค.
๐๏ธ ๋ฐ์ดํฐ ์๊ฐํ
(์์ฑ ์์ )
๐๏ธ ๊ทธ๋ฃน๋ณ ๋ถ์
- ๋ฒ์ฃผํ ๋ณ์(์ฑ๋ณ, ์ง์ญ ๋ฑ)๋ก ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฃนํํ์ฌ ํน์ฑ์ ๋น๊ตํ๋ค.
๐๏ธ ์๊ด๊ด๊ณ (Correlation)
์๊ด๊ด๊ณ๋ ๋ ๋ณ์๊ฐ ์๋ก ๊ด๋ จ์ด ์๋์ง ํ์ธํ๋ ํต๊ณ์ ์ธ ๊ณ์ฐ ๋ฐฉ๋ฒ์ด๋ค.
๐๏ธ ์๊ด๊ด๊ณ ๋ถ์
- ๋ณ์ ๊ฐ ์๊ด๊ณ์(ํผ์ด์จ, ์คํผ์ด๋ง ๋ฑ)๋ฅผ ๊ณ์ฐํ์ฌ ์ฐ๊ด์ฑ์ ํ์ ํ๋ค.
๐๏ธ ํจํด๊ณผ ์ถ์ธ ๋ถ์
- ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ(์๊ณ์ด), ๊ณ์ ์ฑ, ์ฃผ๊ธฐ์ฑ, ์ด์์ ๋ฑ์ ํ์ธํ๋ค.
๐๏ธ ์ธ๋ถ ๋ถ์
- ํน์ ๊ตฌ๊ฐ, ์กฐ๊ฑด, ์ธ๊ทธ๋จผํธ๋ณ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฌ์ธต ๋ถ์ํ๋ค.
๐๏ธ ๊ฐ์ค ์์ฑ๊ณผ ๊ฒ์ฆ
- ๋ฐ์ดํฐ ํ์ ๊ณผ์ ์์ ๋ฐ๊ฒฌํ ํน์ง์ ๋ฐํ์ผ๋ก ๊ฐ์ค์ ์ธ์ด๋ค.
๐๏ธ ๋ฌธ์ํ์ ๋ณด๊ณ
- ๋ฐ์ดํฐ ํ์ ๊ณผ์ ์์ ๋ฐ๊ฒฌํ ์ฃผ์ ์ธ์ฌ์ดํธ, ์๊ฐํ ์๋ฃ, ํต๊ณ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ฆฌํ๋ค.
๐๏ธ ์ถ๊ฐ ๋ถ์ ๊ณํ
(์์ฑ ์์ )