
외계어가 되어버린 내 데이터
공공데이터 포털에서 통계 자료를 받거나, 회사 내부 시스템(ERP)에서 매출 내역을 다운로드했을 때 확장자가 .csv인 파일을 자주 보게 됩니다. 기대감을 안고 파일을 더블 클릭해 엑셀로 열었는데, 한글이 온통 '' 같은 외계어로 깨져 나오거나, 모든 데이터가 한 열에 뭉쳐서 나온 경험, 다들 있으실 겁니다.
이때 보통 인터넷을 검색해서 "메모장에서 인코딩을 바꿔라", "데이터 탭에서 텍스트 나누기를 해라" 같은 복잡한 해결책을 따라 합니다. 하지만 매번 이 과정을 거치는 것은 엄청난 시간 낭비입니다.
오늘은 데이터 분석의 입구에서 우리를 좌절시키는 '인코딩(Encoding)' 문제와 '구분자(Delimiter)' 문제를 AI를 통해 기술적 지식 없이 해결하는 방법을 알아봅니다.
1: 한글 깨짐의 주범, UTF-8과 EUC-KR의 전쟁
한글이 깨지는 이유는 단순합니다. 데이터를 저장한 방식(인코딩)과 엑셀이 읽는 방식이 다르기 때문입니다.
- UTF-8: 전 세계 표준 방식 (웹, 모바일, 최신 시스템 등 대부분이 사용)
- EUC-KR (CP949): 한국 윈도우 엑셀의 기본 방식
보통 웹에서 다운받은 CSV는 'UTF-8'로 되어 있는데, 엑셀은 이를 억지로 'EUC-KR'로 읽으려다 보니 탈이 나는 것입니다. 과거에는 이를 해결하려면 메모장(Notepad)을 열어 '다른 이름으로 저장'을 하며 인코딩을 바꿔줘야 했습니다.
하지만 AI에게는 파일을(또는 깨진 텍스트 일부를) 그대로 던져주고 이렇게 말하면 됩니다.
[추천 프롬프트 예시]
"이 CSV 파일을 열어보니까 한글이 다 깨져서 보여. 인코딩 문제 같은데, 네가 알맞은 인코딩(아마 UTF-8 아니면 EUC-KR일 거야)을 감지해서 한글이 안 깨지게 읽은 다음, 엑셀(xlsx) 파일로 변환해서 다운로드 링크를 줘."
ChatGPT의 '코드 인터프리터(Advanced Data Analysis)' 기능은 파일 내부의 바이너리 데이터를 분석해 인코딩을 자동으로 감지하고 변환해줍니다. 복잡한 설정 없이 그냥 "고쳐줘"라고 하면 해결되는 것이죠.
2: 쉼표(,)의 배신, 데이터 밀림 현상
CSV는 Comma Separated Values, 즉 쉼표로 구분된 값이라는 뜻입니다. 문제는 데이터 내용 자체에 쉼표가 들어갈 때 발생합니다.
- 예: "주소: 서울시 강남구, 테헤란로" 또는 "금액: 1,000,000"
컴퓨터는 주소 중간에 있는 쉼표나 금액 단위 쉼표를 '열을 나누라는 신호'로 착각합니다. 그 결과, 주소 뒷부분이 옆 칸으로 밀려나고, 금액이 '1'과 '000'으로 쪼개져 데이터가 엉망이 됩니다. 이를 '파싱(Parsing) 오류'라고 합니다.
엑셀에서 이를 바로잡으려면 복잡한 텍스트 마법사를 써야 하지만, AI는 '맥락'을 봅니다.
[추천 프롬프트 예시]
"이 데이터를 표로 정리해줘. 그런데 데이터 값 안에 쉼표가 섞여 있어서 열이 밀리는 것 같아. 큰따옴표("")로 묶인 부분은 하나의 데이터로 인식해서 올바르게 표로 파싱(Parsing)해줘."
AI는 문장 구조를 이해하기 때문에 "서울시 강남구, 테헤란로"가 하나의 주소라는 것을 인지하고, 엉뚱한 곳에서 데이터가 잘리는 것을 막아줍니다.
3: 흩어진 CSV 파일 수십 개 합치기
월별 매출 보고서가 '1월.csv', '2월.csv' ... '12월.csv' 처럼 따로 저장되어 있다면 어떨까요? 이걸 1년 치 데이터로 분석하려면 파일을 하나씩 열어서 복사/붙여넣기를 12번 반복해야 합니다. 파일이 100개라면 끔찍한 노가다가 됩니다.
이때는 파일들을 하나의 압축파일(ZIP)로 묶어서 AI에게 업로드하세요.
[추천 프롬프트 예시]
"이 압축파일 안에 있는 CSV 파일들은 모두 같은 양식의 데이터야. 이걸 전부 합쳐서(Merge) 하나의 통합 엑셀 파일로 만들어줘. 그리고 파일명(예: 1월)을 새로운 열로 추가해서 데이터의 출처를 구분해줘."
단 1분 만에 수십 개의 파일이 하나로 깔끔하게 통합됩니다. 파이썬(Python) 코드를 몰라도, AI가 내부적으로 코드를 짜서 실행하기 때문입니다.
결론: 도구 탓하지 말고 AI에게 '통역'을 맡기자
데이터 분석을 하겠다고 마음먹었다가, 파일이 안 열려서 포기하는 것만큼 억울한 일은 없습니다. 깨진 글자와 밀린 칸은 여러분의 잘못이 아닙니다. 단지 컴퓨터 간의 '사투리(인코딩)'가 달랐을 뿐입니다.
이제 기술적인 문제는 AI라는 유능한 통역사에게 맡기십시오. AI는 온갖 포맷의 파일을 읽고 쓰고 고치는 데 최적화되어 있습니다. 우리는 그렇게 정리된 깔끔한 식탁 위에서, 진짜 맛있는 인사이트를 요리하는 데만 집중하면 됩니다.
[핵심 요약]
- CSV 한글 깨짐 현상은 인코딩(UTF-8 vs EUC-KR) 차이 때문이며, AI에게 파일 변환을 요청하면 즉시 해결된다.
- 데이터 내용에 포함된 쉼표 때문에 열이 밀리는 현상도 AI가 문맥을 파악하여 올바르게 수정(파싱)해준다.
- 수십 개의 쪼개진 데이터 파일도 AI에게 한 번에 병합(Merge)을 요청하여 통합 관리할 수 있다.