데이터 전처리는 마치 분석을 하기 전에 재료 손질을 하는 것과 같습니다. 아무리 괜찮은 데이터라도 전처리 과정 없이는 의미 있는 분석 결과를 도출하기 어렵습니다.
일반적으로 데이터 분석가들이 가장 많은 시간을 할애하는 작업이 데이터 전처리입니다. 분석 프로젝트의 70~80%를 차지할 정도로 중요한 과정이죠. 해당 통계는 forbes.com을 기준입니다.
이러한 이유로 많은 분석가들이 샘플 데이터를 활용하여 시간을 절약하고자 합니다. 샘플 데이터로 미리 분석을 진행하고, 실제 데이터에 적용하기 전에 문제점을 파악하고 개선하는 것이죠.
샘플 데이터는 주로 엑셀, CSV 파일 형태로 받고, 이메일이나 저장 장치를 통해 전달 받는 경우가 많습니다. 원활한 업무를 위해 신속하게 데이터를 확인하는 것이 중요합니다. 아래 ‘필수’라고 표시된 단계는 반드시 수행해야 하는 과정입니다.
업무(시나리오) 분석 및 검토
1.업무 분석
초기에 데이터를 충분히 검토하지 않으면, 반복적인 데이터 요청이 발생하여 프로젝트 지연과 불필요한 시간 낭비를 초래할 수 있습니다. 이는 고객과의 협업에도 어려움을 야기하며, 최종 결과물의 신뢰도를 저해하는 요인으로 작용합니다.
2. 데이터 검토
- 업무 목표와 데이터 연결: 분석하고자 하는 업무 목표를 명확히 하고, 이를 달성하기 위해 필요한 데이터가 무엇인지 파악해야 합니다.
- 데이터 간의 관계 파악: 단순히 주어진 데이터만을 보는 것이 아니라, 다른 관련 데이터가 있는지 연관성을 분석해야 합니다. 예를 들어, 코드 데이터라면 해당 코드를 설명하는 코드 테이블이 필요할 수 있습니다.
- 데이터 품질 검증: 데이터의 정확성, 완전성, 일관성을 꼼꼼히 확인하여 오류나 이상값을 제거해야 합니다. 결측치, 중복값, 오타 등이 없는지 검토하는 것이 중요합니다.
컬럼(속성, 변수) 확인
데이터 수집 회의를 통해 협의한 요청 데이터의 컬럼이 모두 존재하는지 확인합니다. 컬럼 유형은 시간, 코드, 텍스트, 주소(위경도) 등으로 나눌 수 있습니다. 각 유형별로 해당 컬럼에 포함된 데이터를 확인하는 것이 좋습니다. 예를 들어, 시간단위는 해당 시간이 모두 포함되었는지, 코드 유형은 모든 코드가 포함되었는지, 위경도는 해당 범위 내 데이터가 포함되었는지 확인해야 합니다.
데이터 기간 확인
요청한 기간에 맞게 데이터가 왔는지 확인합니다. 예를 들어, 2023년 1월부터 2023년 8월까지의 데이터라면 해당 기간 내 데이터가 모두 있는지 검토합니다. min, max 함수를 사용하는 것보다 일별, 시간별로 group by를 사용해 세밀하게 확인하는 것이 좋습니다. 중간에 빠진 데이터가 있는 경우 즉시 재요청해야 합니다.
코드 도메인 확인
코드 컬럼의 경우 범위에 대한 분포를 확인하는 것이 좋습니다. 특정 코드 값이 없거나 데이터가 너무 적다면 문제가 있을 수 있습니다. group by를 사용해 각 코드별 빈도를 확인하고, 잘못된 데이터는 전처리해야 합니다. 코드에 대한 설명이 없으면 다시 요청해야 합니다.
발생 규칙 확인
발생 규칙은 보통 Primary Key에 맞게 생성되어 있는지 확인하는 작업입니다. 경우에 따라 요청하지 않은 생성규칙으로 보낸 경우도 있습니다. 예를 들어, 기준일자 + 시간대 + 행정동코드 +유입지코드로 발생해야 할 경우 그 유일성을 확인해야 합니다. 행정동 단위로 요청을 했는데, 상위 단위인 구단위로 보내준 경우도 있으니, 이럴 경우도 재 요청해야 합니다.
Primary Key에 맞게 데이터가 생성되었는지 확인합니다. 요청하지 않은 규칙으로 데이터가 생성된 경우도 있을 수 있습니다. 예를 들어, 기준일자 + 시간대 + 행정동코드 + 유입지코드로 데이터가 발생해야 할 경우 유일성을 확인해야 합니다. 행정동 단위로 요청했는데 구 단위로 받은 경우에도 재요청이 필요합니다.
데이터 분포 확인
EDA(탐색적 데이터 분석)에 앞서 각 컬럼별로 분포를 확인합니다. 데이터의 쏠림 현상(불균형 데이터)을 확인하고 이에 맞는 다양한 기법을 고려해야 합니다. 특정 시간대에 데이터가 거의 없는 경우 비즈니스 상황에 맞는지 확인할 필요가 있습니다.
NA, null 값의 분포와 전체 데이터 대비 비율을 확인해야 합니다. 분포 및 업무 규칙은 Top-down 접근 방식(통계 분포 및 전체 데이터 현황 분석 후 상세 데이터 확인)과 Bottom-up 접근 방식(특정 데이터 기준으로 추적 분석) 두 가지를 활용할 수 있습니다.
업무 규칙(business rule) 확인
마지막으로 업무 시나리오에서 검토해야 할 업무 규칙을 확인합니다. 예를 들어, 계약일자가 해지일자보다 먼저 와야 한다는 규칙이 있을 때, 이를 위반하는 데이터가 있는지 확인해야 합니다.
이러한 단계를 통해 데이터 전처리를 철저히 수행하면 이후 분석 작업이 훨씬 원활해질 수 있습니다.
1 thought on “데이터 수집 후, 데이터 분석가가 반드시 체크해야 할 7가지”