결측치 해결법: 데이터 삭제 vs 대체, 어떤 방법이 더 좋을까?

이 컨텐츠에 포함된 정보는?

데이터 분석을 하다 보면 데이터가 비어 있는 경우가 있습니다. 이런 비어 있는 데이터를 결측치라고 부르죠. 예를 들어, 설문조사에서 어떤 사람의 나이나 월급 정보가 빠져 있다면 그것이 바로 ‘결측’입니다. 이런 빈 데이터가 많을수록 분석 결과가 부정확하게 나오게 됩니다.

그렇다면 어떻게 처리하면 좋을까요?

오늘은 데이터 전처리 중 결측 처리 방법을 쉽게 설명해 보겠습니다. 크게 두 가지 방법으로 나눌 수 있습니다. 제거하기와 대체하기!

결측데이터

 

결측치 제거하기

우리가 가장 쉽게 선택할 수 있는 방법은 데이터를 삭제하는 겁니다. 즉, 결측치가 있는 행(row)이나 열(column)을 아예 없애버리는 거죠. 하지만 이 방법이 항상 좋은 선택은 아닙니다. 데이터를 삭제하면 그만큼 활용할 정보가 줄어들기 때문이죠.

품질 좋은 데이터를 확보하는 것은 쉬운 일은 아닙니다. 우리가 분석하고 싶은 비즈니스에서 획득 가능한 데이터는 항상 한계가 존재합니다.

이는 이미 데이터 수집에 관련 글에서 다뤘었습니다. 그래서 빈 데이터가 적을 때와 많을 때를 나눠서 생각해 볼 필요가 있습니다. 

1) 결측치가 적을 때

만약 전체 데이터 중 결측 데이터 아주 적다면 삭제하는 것이 괜찮을 수 있습니다. 예를 들어, 1000개의 데이터 중 3개만 ‘결측’이라면 그 데이터를 삭제해도 결과에 큰 영향을 주지 않겠죠.

2) 결측치가 많을 때

하지만 결측치가 많은 경우는 다릅니다. 데이터의 80% 이상이 ‘결측’이라면 삭제하기보다는 다른 방법을 생각해봐야 합니다.

첫번째, 결측이 많은 변수만 삭제하는 방법을 생각해 볼 수 있습니다.  만약 특정 피처(변수)에 삭제하면, 그 변수는 활용할 수 없지만 다른 변수만으로 분석을 진행할 수 있습니다. 

두번째는 결측이 너무 많지만 중요한 정보를 잃지 않기 위해 그 변수를 삭제하는 대신 그 변수의 유무를 나타내는 새로운 변수를 추가하는 방법이 있습니다.

그렇게 하면 원래 변수는 사용하지 못해도 그 변수의 파생 변수는 사용해볼 수도 있습니다. 이처럼 데이터를 삭제하기 전에 생각해봐야 할 점이 많습니다.

 

결측치 대체하기

제거하는 것보다 더 나은 방법은 결측된 값을 다른 값으로 채워 넣는 것입니다. 이 방법은 데이터를 최대한 유지하면서 분석의 정확도를 높이는 데 도움이 됩니다.

그렇다면 어떻게 채워야 할까요?

1) 평균값으로 대체

가장 쉬운 방법 중 하나는 그 그룹의 평균값을 사용하는 건데요. 예를 들어, 월급 데이터에서 결측치가 있다면 해당 직급의 평균 월급으로 결측치를 채울 수 있습니다.

이 방법은 간단하고 빠르지만 모든 상황에 최선은 아닙니다. 평균값이 너무 크거나 작을 경우, 데이터가 왜곡될 수 있기 때문이죠.

2) 최빈값, 중간값 대체

또 다른 방법으로는 최빈값이나 중간값을 사용하는 것이 있는데요. 최빈값은 가장 자주 나오는 값을 말하고, 중간값은 데이터를 크기 순으로 나열했을 때 가운데 있는 값입니다.

예를 들어, 나이 데이터에서 가장 많이 나오는 값으로 결측치를 채우거나, 나이의 중간값으로 결측치를 대체할 수 있습니다. 최빈값이나 중간값은 평균값보다 왜곡을 줄일 수 있습니다.

하지만 완벽은 대안은 아니라는 것을 눈치채셨죠? 워낙 데이터 전처리에 대해 중요하게 생각하다 보니, 분석 업계에서 지속적으로 데이터 대체에 대한 방법론을 연구하고 있습니다. 이런 방법들은 주로 예측 기법을 활용합니다. 

3) 예측 기법으로 대체

좀 더 복잡하지만 더 나은 방법은 예측 모델(알고리즘)을 사용하는 겁니다. 예측 기법 중 간단한 방식으로 설명 하면, 결측치가 없는 다른 변수들을 사용해서 결측치를 예측하는 방식입니다.

예를 들어, 나이, 근속연수, 직급 등을 사용해 월급을 예측하는 모델을 만들어 결측된 월급 값을 채울 수 있습니다. 이런 방법을 사용하면 좀 더 정확한 값을 얻을 수 있죠.

 

마치며

데이터 삭제 vs 대체, 어떤 방법이 더 좋을까요?

결국, 결측치를 어떻게 처리할지는 데이터에 따라 다릅니다. 만약 결측치가 적다면 삭제하는 것이 쉬운 방법일 수 있지만, 데이터를 최대한 활용하고 싶다면 대체하는 방법을 사용하는 것이 좋습니다.

어떤 경우든 데이터를 분석할 때, 결측치를 어떻게 처리할지 신중하게 선택해야 합니다. 이유는 알고리즘의 정확도에 높은 영향도를 가지기 때문입니다. 

이렇게 결측치 처리는 데이터 분석에서 중요한 부분이니, 꼼꼼하게 처리하는 습관을 들이면 더 나은 분석 결과를 얻을 수 있을 거예요.

 

1 thought on “결측치 해결법: 데이터 삭제 vs 대체, 어떤 방법이 더 좋을까?”

Leave a Comment