AI로 배우는 데이터 분석
작성: 홍성학 (euriion@gmail.com)
소개 (Intro)
데이터는 오래전에 생활의 일부가 되었고 세상의 거의 모든 곳에서 데이터 분석을 한다. 데이터 분석은 일반화되어서 과거 데이터 분석가나 데이터 과학자들만 하는 특수한 업무에서 모든 사람들이 해야 하고 또 할 수 있는 것으로 환경도 분위기도 바뀌었다. 하지만 데이터 분석은 전문적으로 공부하지 않은 사람은 배우기 어렵고 어떤 방향으ㄴ로 무엇을 공부해야 할지 어떻게 배워야 할지 맥락을 이해하기 어렵다. 그렇다고해서 포기하면 도태될 것이 분명하다. 데이터 분석을 일반인이 배우는 것은 불가능하지 않은데 데이터 분석이 무엇인지 어떻게 또 무엇을 하는지에 대한 이해와 전체 맥락을 알고 하는 것이 중요하다.
이 책은 데이터 분석을 직접 해보고 싶은 사람들이 AI챗봇을 이용해서 데이터 분석이 무엇인지 이해하고 필요한 지식을 얻고 방향을 잡는데 도움이 되며 실제로도 할 수 있게 하자는 목적으로 썼다. 데이터 분석이라는 일은 보기에는 쉽고 멋있어 보이지만 범위가 넓고 배워야할 것도 많다. 수많은 데이터 분석에 관련 출판 서적은 일반인이나 초보자가 읽기에는 불편한 것들이 많다. 그게 아니면 대부분 분석이 필요한 도구인 Python 언어나 R 언어를 활용하는 방법을 설명하는데 페이지를 너무 많이 할애하고 데이터 분석에 대한 근본적인 원리, 방법, 의미에 대한 것은 설명이 부족하다. 일부 책은 통계학 교과서와 같은 내용으로 전공자가 아니면 이해하기 어려운 내용으로 작성되서 배경 지식이 없는 사람을 접근하기 어려운 책도 많다. 이런 책들도 좋은 내용이 많고 그 나름대로 훌륭하지만 비전공자를 비롯한 일반인들이 데이터 분석이 어떤 것인지 이해하고 직접 데이터 분석을 할 수 있고 업무 또는 실제 생활에서도 해볼 수 있는 척은 많지 않다.
이 책을 통해서 그 부족한 부분을 혼자서도 쉽게 채울 수 있도록 하기위해 노력했다.
데이터 분석을 하려면 몇 가지 중요한 기술(스킬, skill)이 필요한데 그 기술들은 비교적 배우기 어렵다. 하지만 그런 것들도 이제 AI챗봇의 도움으로 쉽게 배우고 잘 해결되지 않는 문제를 풀기위해 도움을 받을 수 있게 되었으며 그런 방법도 함께 넣었다.
AI챗봇과 데이터 분석
이 책의 내용은 일부 AI챗봇(주로 LLM을 활용한 채팅서비스를 말함)을 이용할 때 사용한 질문인 “프롬프트”와 “답”을 넣은 것이 있으며 활용하는 방법을 같이 소개했다. AI챗봇은 인공지능에서 특히 생성형 언어 모델을 서비스화 한 ChatGPT(챗지피티), Claude(클로드), Gemini(제미나이), Grok(그록)과 같은 긋을 말한다. 그 외의 이미지 생성 AI 외 딥러닝과 같은 AI를 포괄적으로 말하는 경우에는 별도도 AI 또는 인공지능이라고 표기했다. 즉, 이 책에서 "AI챗봇에게 물어본다" 라고 표현하는 것은 AI챗봇 서비스에 프롬프트를 입력해서 결과물을 받는 것을 말한다. 각 AI챗봇에서 사용하는 모델은 특별히 언급하지 않았다면 기본값으로 제공되는 것을 사용했다.
AI챗봇이 사용하는 모델은 생성형 인공지능 언어모델인 LLM이라는 모델인데 이것을 서비스를 업무나 학업에 이용하는 일은 이미 일반화되었다. 데이터 분석에도 마찬가지이다. 아직 AI가 사람을 대신해 데이터 분석을 완전히 해주지는 못하지만 그동안 전문 지식이 필요하거나 많은 시간을 쏟아서 해야 했던 것을 AI가 도와줄 수 있어 더 빠르고 쉽게 데이터 분석을 할 수 있게 되었다. 그래서 이제 AI챗봇의 도움을 받는다면 더 쉽게 빠르게 데이터 분석을 배우고 해볼 수 있다. 이 책은 AI챗봇을 활용해서 데이터 분석을 쉡게 배우는 의도로 작성했으며 그 때문에 AI챗봇을 활용을 설명하기 위해서 프롬프트와 답을 넣은 것이 많이 있다. 하지만 AI챗봇으로 내용을 생성한 것을 그대로 기계적으로 붙여 넣지 않았으며 이 책의 내용에서 AI에게 프롬프트를 어떻게 쓰면 필요한 내용을 얻을 수 있는지 예시를 적어 필요한 내용을 찾을 때 AI에게 어떻게 물어보면 좋은지 어떻게 물어보면 좋은지에 대한 요령을 익힐 수 있게 했다. 그리고 AI챗봇의 답은 비교적 딱딱하고 이해하기도 쉽지 않으며 심지어 틀린 내용이 빈번히 들어있기 때문에 프롬프트에 대한 답을 그대로 붙여넣기보다는 교차 검토 및 교정을 했으며 이해하기 어렵거나 너무 간략한 답이 나와 초심자가 이해하지 못하도록 교과서 처럼 나오는 것은 가능한 쉽게 풀어놓은 설명을 덧붙였다. 그리고 AI챗봇의 답이 너무 길어 설명보다 붙여넣은 내용물로 지면을 낭비하지 않도록 노력했다.
프로그래밍, 코딩 coding
데이터 분석에 코딩이 필수인 것은 아니었지만 최근에는 컴퓨터 언어를 매우 적극적으로 데이터 분석에 사용하면 필수화되고 있다. 이 책은 코딩 초보자가 Python 코딩까지 배울 수 있도록 하지는 않았다. 프로그래밍과 Python에 대해 기본은 알고 있다는 전제로 썼다. 읽는 사람들은 Python으로 기본적인 코딩은 할 수 있어야 하고 아직 그렇지 않다면 간단하게 사전에 공부를 하는 것을 권한다. 하지만 깊게 알지 않아도 읽고 따라갈 수 있도록 노력했다. 이 책에서는 Python을 이용한 일반적인 프로그래밍보다는 데이터 분석, 데이터 과학에 관련된 부분과 관련 패키지를 다루는 방법 그리고 응용 예제에 대해서 중점적으로 설명한다. 중간에 나오는 프로그래밍에 대한 부분에 이해가 안되거나 지식이 필요한 것은 AI챗봇의 도움을 받거나 온라인 책 강좌등의 자료를 찾아서 공부하고 따라갈 수 있도록 했다. 데이터 분석을 설명하는데 코딩까지 설명하게 되면 상당히 많은 지면을 파이썬 문법 설명, 패키지 사용법, 코딩에 대해 할애해야 한다. 최대한 배제하였으며 긴 코드를 너무 많이 붙여 넣어서 지면을 낭비하는 일을 줄이도록 노력했다.
혼자 배우기는 어려운 데이터 분석
데이터 분석을 하기 위해서는 배워야 할 기본 지식이 많다. 최근에는 중, 고등학교 과정까지 데이터 분석과 데이터 과학이 포함되었지만 데이터 분석이 일반적으로 흔히 접할 수 있는 일이 아니었기 때문에 책이나 강좌를 보고 혼자 공부하기 무척 어렵다. 배우려면 범위를 줄이고 단순화하면 가능하겠지만 데이터 분석의 전반적인 것을 다 익히려면 시간이 많이 든다. 보통 데이터 분석을 배우는 정석은 대학에서 데이터 분석이 포함된 과목을 전공으로 배우거나 직장이나 연구소에서 선배가 하는 것을 보거나 교육받아서 배우는 것이다.
혼자 공부하는 것이 불가능한 것은 아니지만 어려운 부분에 핵심에 대해서 설명받지 못하거나 데이터 분석이 어떤 일을 어떻게 해야 하는 것인지 전체적인 맥락과 흐름을 알지 못하고 단편적인 몇가지만 쫓아가면 길을 잃을 있고 중도 포기하는 경우가 많다. 데이터 분석은 시작할 때 분석과 관련된 기본지식, 분석 기법의 원리, 분석하는 이유와 방향을 알아야 하고 현업 지식(domain knowledge)까지 동원해야 한다.
어떻게 하면 할 수 있는 지 이해하는데 도움이 되도록 노력했다.
데이터 분석가가 되려는 사람들
전공자가 아니라면 데이터 분석을 처음 시작할 때 무엇부터 어떻게 해야 하는지 감을 잡기 어렵다. 많은 시간을 들여 전문적으로 배운 사람과 차이가 날 수 밖에 없다. 하지만 비록 당장 데이터 분석 전문가가 될 수는 없어도, 데이터 분석을 어떻게 하고 무엇을 하는 것인지 알고 실제로도 해볼 수 있게 있을 것이다. 이미 데이터 분석 공부를 시작했거나 시작하고 중도에 포기해본 경험이 있는 사람들은 아마도 여러 데이터 분석, 통계, 데이터 애널리틱스 책을 보거나 강좌를 들어도 방대하고 서로 다른 커리큘럼과 목차로 인해 학습량과 데이터 분석의 요체를 파악하지 못해 배우기 힘든 경험이 있었을 것이다. 그런 어려움을 해소할 수 있도록 했다.
실무에 쓸 수 있는 데이터 분석
실제로 실무에 쓸 수 있는 내용이 되도록 담았다. 데이터 분석을 실무에 쓸 수 있도록 하는 내용을 책 한권에 모두 담을 수는 없다. 데이터 분석은 버즈니스 종류 별로 다르고 회사나 조직마다 다르기 때문이다. 하지만 모든 업무에 전문적으로 데이터 분석을 적용할 수는 없어도 배운 내용을 응용하면 업무 또는 학업 개인 프로젝트에도 활용할 수 있도록 했다.
감수에 대해서
감수자에 대한 이야기
데이터 분석 로드맵
데이터 분석 학습 로드맵
도표 필요(마인드맵, mermaid)
자료 안내
설명이 전부인 부분도 있지만, 실행해야 하는 코드나 행동으로 해야 하는 것은 직접 따라 하면서 해보길 바란다. 실습용 파일과 예제는 github에 공유한다. 오탈자 교정도 마찬가지다. 저자와 직접 얘기하거나 출판사를 통해 저자에게 도움을 받을 수 있다.
AI의 도움을 받자. AI가 항상 진실을 얘기하지 않고 할루시네이션이 발생하지만, 대부분은 많은 도움이 된다. ChatGPT, Claude, Gemin), Grok과 같은 서비스를 항상 옆에 두고 활용하기를 권한다. AI챗봇 서비스는 유료를 써야 좋은 기능과 모델을 쓸 수 있고 무료는 일정한 사용량의 제한이 있지민 기본적인 것은 충분히 사용할 수 있다. 사용 후에 계속 쓸 생각이 있고 사용량 제한이 아쉽다며 그때 유료로 전환해서 사용해도 된다.
AI챗봇 프롬프트와 답
이 책에서는 AI에게 어떤 프롬프트로 무엇을 물으면 좋을지 안내하기 위해 “프롬프트”와 “답변”을 같이 적었다. 프롬프트는 비교적 간단하게 작성했으며 앞서 말했듯이 AI챗봇의 답은 일부 교정을 하거나 짧고 간단하게 나오게 유도해서 사용했다. 주의할 것은 AI챗봇의 답은 사용하는 AI챗봇 서비스 브랜드, AI 모델과 모델의 버전에 따라 모두 다를 수 있고 답을 주기 위해서 스스로 검색 엔진을 사용하는 AI챗봇 서비스는 검색 결과에 따라 답이 달라진다는 것이다. 메모리 기능을 내장하고 있는 AI 서비스는 과거에 이용자가 물어보는 패턴에 따라 다른 답을 줄 수도 있다. 또 서비스에서 지시어를 등록해서 답을 할 때마다 미리 지정한 지시어를 따르도록 한 경우에도 답은 다르게 나올 수 있다.