본문 바로가기 주메뉴 바로가기

채널콘

CHANNELCON

데이콘 아카데미

데이콘인피니티의 데이터, AI, Web3, 클라우드 전문가들에게 전문적이고 신뢰할 수 있는 지식을 배울 수 있는 데이콘아카데미 입니다.

[Data Preprocessing]

관리자 2022-11-28 조회수 699
005.jpg

Data Preprocessing란?

◉ 실제의 업무나 활동에서 주어지는 원데이터를 바로 데이터 분석에 사용하지 못하는 경우가 많기 때문에 적합한 형태로 변형한 후에 분석해야 함.


결측치 missing value 처리

◉ 결측치 처리 전략

  ◎ 데이터가 NaN일 때 그대로 날려버림

  ◎ 데이터가 없는 최소의 개수와 같이 규칙을 정해서 날려버림

  ◎ 데이터가 거의 없는 feature는 feature 자체를 날려버림

  ◎ 최빈값, 평균값으로 NaN을 채워버림

  ◎ SMOTE, KNN 같은 방법을 사용해서 근사한 instance의 값으로 채움 (가장 과학적인 방법)


범주형 변수 categorical data 처리

◉ 범주형 데이터를 분석하기 위해서 더미(dummy) 변수화하며, 다른 말로는 원핫인코딩(one-hot encoding)이라 함.