채널콘
CHANNELCON
CHANNELCON
데이콘인피니티의 데이터, AI, Web3, 클라우드 전문가들에게 전문적이고 신뢰할 수 있는 지식을 배울 수 있는 데이콘아카데미 입니다.
EDA란?
◉ EDA(Exploratory Data Analysis) 즉 탐색적 데이터 분석은 데이터 분석 과정에 대한 개념으로 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 탐색과 이해를 기본으로 가져야 한다는 것을 의미
◉ EDA를 해야하는 이유
◎ 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견할 수 있음
◎ 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있음
◎ 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있음
◉ EDA 과정
◎ 전체적인 데이터 살펴보기
1. 분석의 목적과 변수가 무엇인지 확인
2. 데이터에 문제가 없는지, head나 tail 확인
3. 데이터의 개별 속성값을 관찰
4. 속성 간의 관계에 초점을 맞추어 패턴을 발견(상관관계, 시각화)
◎ 이상치 분석
1. 개별 데이터 관찰
2. 통계 값 활용
3. 시각화 활용
4. 머신러닝 기법 활용 (예시 – k-means)
◎ 속성 간의 관계분석
1. Categorical – Categorical (교차테이블, 모자이크 플롯 등)
2. Numeric – Categorical (통계값, 박스 플롯 등)
3. Numeric – Numeric (상관계수, 스캐터 플롯 등)