채널콘
CHANNELCON
CHANNELCON
데이콘인피니티의 데이터, AI, Web3, 클라우드 전문가들에게 전문적이고 신뢰할 수 있는 지식을 배울 수 있는 데이콘아카데미 입니다.
Data Preprocessing란?
◉ 실제의 업무나 활동에서 주어지는 원데이터를 바로 데이터 분석에 사용하지 못하는 경우가 많기 때문에 적합한 형태로 변형한 후에 분석해야 함.
결측치 missing value 처리
◉ 결측치 처리 전략
◎ 데이터가 NaN일 때 그대로 날려버림
◎ 데이터가 없는 최소의 개수와 같이 규칙을 정해서 날려버림
◎ 데이터가 거의 없는 feature는 feature 자체를 날려버림
◎ 최빈값, 평균값으로 NaN을 채워버림
◎ SMOTE, KNN 같은 방법을 사용해서 근사한 instance의 값으로 채움 (가장 과학적인 방법)
범주형 변수 categorical data 처리
◉ 범주형 데이터를 분석하기 위해서 더미(dummy) 변수화하며, 다른 말로는 원핫인코딩(one-hot encoding)이라 함.