05-000. 데이터 탐색
데이터 탐색 - Data Exploration
통계학의 기술 통계 분야에서 하는 일이 데이터 탐색이라고 할 수 있다. 데이터 탐색은 통계학에서는 탐색적 데이터 분석이라고 한다. 보통 EDA(Exploratory Data Analysis, 이디에이)라고 줄여서 부른다. EDA는 통계학의 기술 통계(Descriptive Statistics)라는 갈래에 들어가는데 기술 통계는 데이터를 요약하고 설명하는 것을 의미한다. 기술 통계에서 기술(Descriptive)의 뜻은 테크닉(Technique)을 뜻하는 것이 아니라 적어서 설명한다는 뜻이다.
이 책에서는 기술통계의 이론적인 설명 보다는 실용적인 것을 중씸으로 설명할 것이다. 이론족인 풍부한 지식이 필요하다면 다른 통계학 기반의 책을 참고하기 바란다.
기술 통계에서 하는 일
기술 통계(Descriptive Statistics)의 목적은 데이터를 요약하고 설명하는 것이다. 기술 통계는 탐색적 데이터 분석이 많은 부분을 차지한다. 데이터를 잘 살펴보고 나서 설명하기 쉽게 요약하고 글을 쓰고 그림을 그려놓고 설명하는 것이다. 데이터를 굳이 요약해야 하는 이유는 데이터의 현황을 쉽게 확인하고 설명하기 위한 것이다. 데이터를 그대로 펼쳐 놓으면 설명하기 너무 어렵다. 살명을 위해서 데이터가 기록된 레코드(record)를 한줄 한줄 나열해서 하나하나 설명하는 것은 낭비이고 그렇게 해서는 통찰을 얻기도 어렵고 보는 사람이 직관적으로 이하할 수 있게 설명하기 어렵다. 대부분 데이터 분석을 처음 시작하는 사람들이 상상하는 데이터 분석이라는 일은 탐색적 데이터 분석을 생각할 가능성이 크다. 엑셀 시트나 숫자들이 잔뜩 들어 있는 작업환경에서 멋진 차트와 그래프를 그리면서 심각한 얘기를 하는 것 같은 것인데 탐색적 데이터 분석이 그런 것이다. 탐색적 데이터 분석 후에ㄴ은 보통 분석 보고서를 작성하게 되는데 분석 보고서를 보고 나면 아마 데이터 분석이 무슨 일을 하는지 쉽게 알 수 있을 것이다. 추론통계는 가설 검정 같은 골치아픈 것을 하는데 기술통계보다는 어렵다. 추론통계가 보고서를 쓰지 않는 것은 아니며 추론통계의 내용이 분석보고서에 포함되는 경우도 많다.
탐색적 데이터 분석에서 데이터를 요약하고 설명하는 방법들의 실제 내용은 다음과 같다.
((프롬프트)): 탐색적 데이터 분석에서 하는 것을 요약해서 알려주세요 ((AI챗봇 답)): 탐색적 데이터 분석(EDA)에서는 다음과 같은 주요 작업을 수행합니다.
-
데이터의 전체 구조와 특성 파악
- 데이터의 크기(행, 열), 변수의 종류(숫자형, 범주형 등), 각 변수의 의미를 확인합니다.
-
기초 통계량 계산
- 평균, 중앙값, 최빈값, 최소/최대값, 분산, 표준편차 등 기본적인 수치 지표를 구해 데이터의 중심과 분포를 파악합니다.
-
데이터 분포 및 패턴 시각화
- 히스토그램, 박스플롯, 산점도 등 다양한 그래프를 통해 데이터의 분포, 이상치, 변수 간 관계 등을 시각적으로 확인합니다.
-
결측치와 이상치 탐색
- 누락된 값(결측치)이나 비정상적으로 크거나 작은 값(이상치)이 있는지 확인하고, 그 원인과 처리 방법을 고민합니다.
-
변수 간 관계 분석
- 상관계수, 교차표, 그룹별 통계 등으로 변수들 사이의 연관성이나 차이점을 탐색합니다.
-
그룹별 비교 및 특성 분석
- 성별, 지역, 등급 등 특정 그룹별로 데이터를 나누어 특성을 비교합니다.
-
시계열 데이터의 경우 추세 및 계절성 확인
- 시간에 따른 변화, 주기성, 추세 등을 시계열 그래프 등으로 살펴봅니다.
데이터 탐색에서 할 일은 데이터의 전반적인 특징을 이해하고 이후의 분석 방향이나 필요한 전처리 작업을 결정한다. 특히 특징적인 사실을 찾아내는 것이다. 만약 특징적인 사실이 없다면 추가 데이터 분석은 하지 않는데 특징이 없는 데이터는 거의 없다.
데이터를 탐색하는 방법
데이터를 탐색한다는 것은 데이터를 들여다보고 여러 측면에서 살펴본 후에 특징을 찾아내는 것을 말한다. 단순히 데이터를 보고 “잘 보았다”라고 말하는 것이 아니다. 데이터 시각화를 하고 막대그래프나 선그래프를 만들고 나서 데이터 탐색을 다 했다고 말하는 것은 데이터 탐색에서 하는 일을 오해한 것이다.
데이터를 탐색하는 방법은 위에 탐색적 데이터 분석에서 설명했지만 교과서적인 내용이고 실제 데이터 밤색에서 하는 일은 AI챗봇도 답을하지 못한다. 데이터 탐색은 지루하고 피곤한 일의 반복작업이며 그런 반복적인 작업을 책이나 기술문서에 자세히 설명해서 적지 않기 때문이다. 따라서 AI챗봇에는 데이터 탐색에서 실제로 하는 일이 학습되어 있지 않고 답을 하지 못한다.
데이터를 탐색하는 실제 방법은 다음과 같습니다:
1. **데이터 살펴보기**
- 데이터의 크기와 구조 확인
- 변수명과 데이터 타입 확인
- 결측치나 이상치 확인
- 데이터의 범위와 분포 확인
2. **기초 통계량 확인**
- 평균, 중앙값, 최빈값 계산
- 표준편차, 분산 등 산포도 계산
- 사분위수와 백분위수 확인
- 왜도와 첨도 확인
3. **데이터 시각화**
- 히스토그램으로 분포 확인
- 박스플롯으로 이상치 확인
- 산점도로 변수 간 관계 확인
- 시계열 그래프로 추세 확인
4. **그룹별 분석**
- 범주형 변수로 그룹화
- 그룹별 통계량 비교
- 그룹 간 차이 분석
- 교차분석 수행
5. **상관관계 분석**
- 변수 간 상관계수 계산
- 상관행렬 시각화
- 다중공선성 확인
- 인과관계 추정
6. **패턴과 추세 분석**
- 시간에 따른 변화 확인
- 계절성과 주기성 확인
- 이상점과 변곡점 확인
- 장기 추세 분석
7. **세부 분석**
- 특정 구간/조건 상세 분석
- 이상치 원인 분석
- 특이 패턴 심층 분석
- 세그먼트별 분석
8. **가설 생성과 검증**
- 데이터 기반 가설 수립
- 통계적 검정 수행
- 가설 수용/기각 판단
- 새로운 가설 도출
9. **문서화와 보고**
- 주요 발견사항 정리
- 시각화 자료 준비
- 인사이트 도출
- 분석 보고서 작성
10. **추가 분석 계획**
- 심층 분석 필요 영역 파악
- 추가 데이터 수집 계획
- 고급 분석 기법 선정
- 분석 방향 설정
이러한 탐색 과정은 순차적이 아니라 반복적이고 순환적으로 이루어지며, 분석 목적과 데이터 특성에 따라 유연하게 적용됩니다.