본문 바로가기 주메뉴 바로가기

채널콘

CHANNELCON

데이콘 아카데미

데이콘인피니티의 데이터, AI, Web3, 클라우드 전문가들에게 전문적이고 신뢰할 수 있는 지식을 배울 수 있는 데이콘아카데미 입니다.

[EDA]

관리자 2022-11-28 조회수 221
003.jpg

EDA란?

◉ EDA(Exploratory Data Analysis) 즉 탐색적 데이터 분석은 데이터 분석 과정에 대한 개념으로 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 탐색과 이해를 기본으로 가져야 한다는 것을 의미


◉ EDA를 해야하는 이유

  ◎ 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견할 수 있음

  ◎ 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있음

  ◎ 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있음


◉ EDA 과정

  ◎ 전체적인 데이터 살펴보기

1. 분석의 목적과 변수가 무엇인지 확인

2. 데이터에 문제가 없는지, head나 tail 확인

3. 데이터의 개별 속성값을 관찰

4. 속성 간의 관계에 초점을 맞추어 패턴을 발견(상관관계, 시각화)

  ◎ 이상치 분석

1. 개별 데이터 관찰

2. 통계 값 활용

3. 시각화 활용

4. 머신러닝 기법 활용 (예시 – k-means)

  ◎ 속성 간의 관계분석

1. Categorical – Categorical (교차테이블, 모자이크 플롯 등)

2. Numeric – Categorical (통계값, 박스 플롯 등)

3. Numeric – Numeric (상관계수, 스캐터 플롯 등)