01-050. AI와 데이터분석
AI로 데이터분석 하기
AI 챗봇 서비스 또는 LLM모델에 데이터를 넣어주고 데이터 분석을 지시하면 처음부터 끝까지 모든 것을 다 해줄 것이라는 생각을 가질 수 있다. 어느 정도는 되지는 다 가능한 것은 아니다.
작고 단순한 데이터는 AI가 분석을 잘 하지만, 데이터 크기가 크고 복잡하다면 제대로 분석해 주지 않는다. 그래서 현실에서는 데이터 분석을 AI에게 완전히 맡기는 것은 아직 어렵다.
AI가 왜 데이터 분석을 하지 못하는지와 데이터 분석에 AI를 어떻게 활용할 수 있는지 알아보자.
AI의 한계
지금까지 AI의 한계를 이해한다면 데이터 분석에 왜 아직 사람의 개입이 필요한지 이해하기 쉽다.
논리적 해석의 어려움
AI는 데이터에서 패턴을 찾아내는 것은 뛰어나다. 하지만 그 패턴이 왜 나타나는지에 대한 논리적 해석에는 한계가 있다. AI는 맥락을 고려한 해석을 잘 못한다. 같은 데이터라도 업종, 시기, 지역에 따라 완전히 다른 의미를 가질 수 있는데, 이런 맥락적 이해는 여전히 인간의 전문 영역이다.
AI모델 중에서도 추론 모델은 일반 LLM 모델보다는 이런 문제를 더 잘 처리하지만, 아직 인간 수준에는 미치지 못한다. 그래서 AI에게는 패턴을 찾고 문장을 생성하고 규칙성과 관련된 문제를 해결하게 하는 것이 좋다.
수학적 계산의 한계
AI가 수치 계산을 어느 정도 수행하지만, 언어 모델로 설계되어 있어 수학적 계산에서 근본적인 한계를 가지고 있다. 이것은 AI의 작동 원리와 관련이 있다.
AI 챗봇의 엔진인 LLM(Large Language Model)은 토큰 기반 처리를 한다. 텍스트를 토큰 단위로 처리하며, 수학적 계산을 단계별로 논리적으로 수행하는 것이 아니라 패턴 매칭을 통해 답을 생성한다. 따라서 복잡한 계산일수록 오류 가능성이 매우 높아진다.
또, AI는 정확한 계산보다는 학습된 패턴을 바탕으로 그럴듯한 답을 생성하는 경향이 있다. 특히 큰 숫자의 곱셈, 나눗셈, 소수점 계산에서 부정확한 결과를 제공할 수 있다.
인간은 계산 과정을 단계별로 검증하며 진행하지만, AI는 전체적인 패턴으로 답을 생성하기 때문에 중간 과정의 오류를 놓칠 수 있다.
그래서 AI에게 모든 계산을 맡기는 것은 신뢰하기 어렵고 반드시 검증이 필요하다. 이런 이유로 대부분의 AI 서비스들은 데이터 분석을 요청받으면 서비스 내부에서 계산과 분석을 수행하는 코드를 AI 모델에게 작성하게 하고, 그 코드를 실행해서 결과를 얻는 방식을 사용한다.
데이터 크기의 제약
작은 크기의 데이터는 AI 서비스가 직접 분석할 수 있다. 하지만 현실에서 분석해야 하는 데이터는 엑셀이나 CSV 파일 한두 개로 구성된 작은 크기가 아닌 경우가 대부분이다.
노트북 컴퓨터 1대에서 분석하기도 어려운 경우가 제법 많으며, 이런 데이터는 AI 챗봇 서비스에 업로드할 수조차 없을 정도로 크다. 큰 데이터는 대부분의 LLM 모델이 처리할 수 있는 토큰 한계를 넘기 때문에, LLM이 아예 처리하지 못한다.
즉, 엑셀에 불러올 수 있는 작은 크기의 데이터는 AI가 어느 정도 분석이 가능하지만, 조금만 데이터가 커져도 분석하지 못한다. 그리고 분석 결과가 정확한지도 확신할 수 없다.
데이터 크기별 AI 활용 방법
작은 데이터 처리
데이터 크기가 매우 크지 않다면 AI가 코드를 생성해서 분석을 위한 데이터 처리를 하게 하고, 그 결과물을 확인한 후에 다시 재수행하거나 결과를 정리하는 일을 하도록 할 수 있다.
하지만 코드 작성을 AI가 하게 해서 편리한 점이 생기는 것 외에는 인간이 하는 데이터 분석 작업과 다르지 않다. 또한 AI가 분석을 위한 코드를 올바르게 작성했는지, 명령한 사람이 의도한 대로 했는지 다시 검증해야 한다.
빅데이터 분석
크기가 큰 데이터인 빅데이터는 AI뿐만 아니라 근본적으로 가지고 있는 문제가 있다. 데이터가 매우 크기 때문에 노트북 컴퓨터나 PC에 다운로드할 수도 없고, 빅데이터 플랫폼 안에서 분석해야 한다.
이런 데이터도 역시 AI가 직접 분석할 수 없고, 분석을 처리하는 코드를 작성하게 하거나 빅데이터 플랫폼을 자동화해서 처리하는 방법을 써야 한다. 이 방법은 앞서 소량 데이터와 마찬가지로 자동화할 수 있다는 점을 빼면 원래 사람이 하던 것과 같다.
AI가 데이터 분석에서 잘하는 것
AI는 패턴 인식과 자동화된 분석에서 뛰어난 성능을 보인다. 대량의 데이터에서 숨겨진 패턴을 찾아내고, 반복적인 분석 작업을 자동화하며, 기본적인 통계 분석과 시각화를 빠르게 수행할 수 있다.
또한 자연어로 분석 결과를 설명하고 해석하는 능력도 뛰어나다. 이런 부분은 AI에게 맡기고, 패턴으로부터 통찰을 얻고 도메인 지식을 결합해서 가치를 찾는 것 같은 높은 수준의 작업은 사람이 하는 것이 바람직하다.
AI가 데이터 분석에서 어려워하는 것
도메인 전문 지식의 부족
AI는 데이터의 맥락과 비즈니스 상황을 완전히 이해하지 못한다. 예를 들어, 매출 데이터에서 특정 시점의 급격한 변화가 계절적 요인인지, 마케팅 캠페인의 효과인지, 아니면 외부 환경 변화 때문인지 판단하기 어렵다.
인과관계 추론의 한계
AI는 상관관계는 잘 찾아내지만, 진정한 인과관계를 파악하는 것은 어렵다. 두 변수가 함께 움직인다고 해서 하나가 다른 하나의 원인이라고 단정할 수 없는데, 이런 논리적 추론에는 한계가 있다.
창의적 가설 설정의 어려움
데이터 분석에서 가장 중요한 것 중 하나는 올바른 질문을 던지고 적절한 가설을 세우는 것인데, 이는 창의성과 직관이 필요한 영역이다.
데이터 품질 문제 해결
결측값, 이상값, 데이터 오류 등을 처리할 때 단순한 규칙만 적용할 뿐, 데이터가 왜 그런 상태인지, 어떻게 처리하는 것이 가장 적절한지에 대한 판단은 부족하다.
AI와 사람의 협업
효과적인 데이터 분석은 AI의 장점과 사람의 능력을 결합하는 것이다. AI는 반복적이고 계산 집약적인 작업을 담당하고, 사람은 전략적 사고와 창의적 가설 설정, 결과 해석을 담당한다.
AI 분석 리포트 작성의 장점
AI는 데이터 분석 리포트 작성에서 다음과 같은 강점을 보인다.
- 구조화된 문서 작성 - 일관된 형식과 논리적 구조로 리포트를 작성한다
- 다양한 관점의 해석 - 동일한 데이터를 여러 각도에서 분석하고 해석한다
- 적절한 시각화 제안 - 데이터 특성에 맞는 차트와 그래프를 제안한다
- 쉬운 설명 - 복잡한 분석 결과를 누구나 이해할 수 있게 설명한다
주의사항과 한계
AI 분석 리포트에는 다음과 같은 한계가 있다.
- 맥락 이해 부족 - 비즈니스 상황이나 데이터 배경을 완전히 파악하지 못한다
- 과도한 일반화 - 제한된 데이터로 광범위한 결론을 내릴 수 있다
- 검증되지 않은 추론 - 상관관계를 인과관계로 잘못 해석할 수 있다
효과적인 활용 방법
- 명확한 정보 제공 - 데이터 출처, 분석 목적, 예상 독자 등을 구체적으로 제공한다
- 단계별 검토 - AI 작성 초안의 정확성과 논리성을 단계별로 검토한다
- 도메인 지식 보완 - 업계 특성이나 비즈니스 맥락을 추가로 보완한다
- 결론 재검토 - 제언이나 향후 계획의 실현 가능성을 확인한다
AI의 효율성과 사람의 전문성을 결합할 때 품질 높은 분석 리포트를 효과적으로 작성할 수 있다.