3장. 데이터 전처리 - Data Preprocessing
데이터 전처리는 데이터를 분석하거나 모델을 만들기 전에 잘못된 부분을 고치고 다루기 쉽게 바꾸는 과정이다. 전체 분석 시간의 80% 정도가 전처리에 소요된다. 전처리는 시간이 오래 걸리고 실수가 발생하기 쉬운 작업이다. 따라서 전처리를 빠르고 정확하게 수행할 수 있는 방법을 익히는 것이 중요하다.
ℹ️알아두기: 전처리(Preprocessing)라고 부르는 이유는 본처리(Main processing) 작업인 데이터 분석과 모델링 전에 하는 작업이기 때문이다.
데이터 전처리를 프로그래밍으로 처리할 때는 상당한 양의 코딩이 필요하다. 각 단계에서 발생할 수 있는 문제점을 미리 파악하고 적절한 해결 방법을 익혀야 코드를 간결하게 작성하고 효율적으로 작업할 수 있다. 또한 실수를 최소화하고 시간을 절약하려면 반복 작업을 체계적으로 관리하는 것이 중요하다.
이 장에서 데이터 전처리를 빠르고 효율적으로 하는 방법을 알아본다.