
분석의 8할은 청소다
데이터 분석 프로젝트가 실패하는 가장 큰 이유는 복잡한 통계 지식이 부족해서가 아닙니다. 바로 '뒤섞인 데이터(Dirty Data)' 때문입니다. 현업에서 마주하는 엑셀 파일은 교과서처럼 깔끔하지 않습니다. 날짜 형식이 제각각이거나, 고객 주소에 오타가 섞여 있고, 중요한 숫자 칸이 비어 있는 경우가 태반입니다.
업계에서는 이를 "Garbage In, Garbage Out (쓰레기가 들어가면 쓰레기가 나온다)"라고 부릅니다. 아무리 좋은 AI 모델을 써도 입력 데이터가 엉망이면 결과는 엉터리가 됩니다. 과거에는 이런 데이터를 정리하느라 야근을 밥 먹듯 했지만, 이제는 다릅니다. AI는 지치지 않는 최고의 '데이터 청소부'이기 때문입니다.
오늘은 AI를 활용해 골치 아픈 원시 데이터를 단 3초 만에 분석 가능한 상태로 만드는 '전처리(Preprocessing)' 기술을 알아보겠습니다.
1: 제각각인 날짜와 전화번호 통일하기
여러 부서에서 취합한 데이터를 합치다 보면 가장 흔하게 겪는 문제가 바로 '형식 불일치'입니다. 누군가는 '2024.01.01'로 적고, 누군가는 '24-1-1', 심지어 'Jan 1st'라고 적기도 합니다. 엑셀 필터가 먹통이 되는 주원인입니다.
이때 AI에게 다음과 같이 구체적으로 지시하면 순식간에 해결됩니다.
[추천 프롬프트 예시]
"지금 붙여넣는 데이터의 '날짜' 열을 봐줘. 형식이 제각각인데, 모두 'YYYY-MM-DD' 표준 형식으로 통일해줘. 그리고 '전화번호' 열에 있는 하이픈(-)이나 괄호()는 모두 제거하고 숫자만 남겨줘. 결과는 CSV 형식으로 출력해줘."
AI는 문맥을 이해하기 때문에 단순한 '찾아 바꾸기' 기능보다 훨씬 똑똑하게 작동합니다. 예를 들어 '오전 9시'와 '09:00'을 같은 시간으로 인식하고 표준화해줍니다. 이는 엑셀 함수를 여러 번 겹쳐 써야 하는 수고를 덜어줍니다.
2: 텍스트 쪼개기와 합치기 (주소, 이름 분리)
"서울시 강남구 테헤란로 123"처럼 한 셀에 뭉쳐 있는 주소를 '시/도', '구/군', '도로명'으로 나누고 싶을 때가 있습니다. 엑셀의 '텍스트 나누기' 기능은 공백이나 쉼표 기준으로만 자르기 때문에, 주소처럼 불규칙한 데이터 앞에서는 무용지물일 때가 많습니다.
AI는 언어적 구조를 이해하므로 의미 단위로 데이터를 쪼개는 데 탁월합니다.
[추천 프롬프트 예시]
"이 주소 리스트를 '시/도', '구/군', '나머지 상세주소'의 3개 열로 구분해서 표로 만들어줘. 만약 주소에 오타가 있어 보이면(예: 서울시인데 '서을시'로 표기됨) 문맥상 맞는 지명으로 수정해서 분류해줘."
반대로 흩어진 데이터를 합칠 때도 유용합니다. 성(Last Name)과 이름(First Name)이 분리된 해외 데이터를 한국식 '홍길동' 형태로 합치는 작업도 프롬프트 한 줄이면 끝납니다.
3: 비어 있는 값(결측치) 처리의 묘수
데이터 중간중간 뻥 뚫린 '빈칸(Null Value)'은 분석 결과에 치명적인 오류를 줍니다. 합계를 낼 때 오류가 뜨거나 평균값이 왜곡되기 때문입니다. AI에게 이 빈칸을 어떻게 채울지 전략적으로 명령할 수 있습니다.
- 단순 제거: "데이터가 하나라도 비어 있는 행은 과감히 삭제해줘."
- 평균값 대체: "나이(Age) 열에 비어 있는 값은 전체 데이터의 평균 나이로 채워줘."
- 최빈값 대체: "선호 색상 열의 빈칸은 가장 많이 등장한 색상으로 채워줘."
- 추론 채우기 (고급): "직업과 소득 데이터를 참고해서, 비어 있는 '소비 등급'을 유사한 사람들의 패턴에 맞춰 추정해서 채워줘."
특히 4번의 경우, AI의 추론 능력을 활용해 단순 통계보다 더 정교하게 빈 데이터를 복구할 수 있는 강력한 방법입니다.
4: 엑셀 파일 업로드 vs 텍스트 붙여넣기
데이터를 AI에게 주는 방법은 크게 두 가지입니다.
- 파일 업로드 (유료/고급 기능): 데이터가 수천 행 이상으로 많을 때는 엑셀(XLSX)이나 CSV 파일을 직접 업로드하는 것이 좋습니다. ChatGPT(Plus)나 Claude 같은 최신 모델은 파일을 직접 읽고 파이썬 코드를 실행해 전처리를 수행합니다. 가장 정확하고 빠릅니다.
- 텍스트 붙여넣기 (무료/소량): 데이터가 100행 이내라면 엑셀 내용을 드래그 복사해서 채팅창에 붙여넣어도 충분합니다. 이때는 "아래 데이터는 탭(Tab)으로 구분되어 있어"라고 형식을 알려주면 더 잘 인식합니다.
결론: 전처리는 AI에게, 사람은 전략에 집중하자
데이터 전처리는 요리로 치면 '재료 손질'입니다. 흙 묻은 당근을 씻고 껍질을 벗기는 일은 필수적이지만, 그 자체가 요리의 맛을 결정하지는 않습니다.
과거의 직장인들이 흙 묻은 데이터를 씻느라 하루를 다 보냈다면, 스마트 워커인 우리는 AI라는 보조 셰프에게 "재료 손질해놔"라고 지시하고, 어떤 요리(분석)를 만들지 레시피를 구상해야 합니다. 오늘 소개한 3가지 패턴(형식 통일, 분리/병합, 빈칸 채우기)만 익혀도 여러분의 퇴근 시간은 최소 30분 이상 빨라질 것입니다.
[핵심 요약]
- 데이터 분석의 품질은 '전처리(Cleaning)'에서 결정되며, AI는 이 반복 작업을 자동화하는 데 최적화되어 있다.
- 날짜/전화번호 형식 통일, 주소 분리, 오타 수정 등 규칙이 복잡한 작업도 프롬프트로 해결 가능하다.
- 비어 있는 값(결측치)을 평균이나 추론으로 채워 넣어 분석 가능한 완전한 데이터 세트를 만들 수 있다.