데이터 사이언스 단계

  1. 문제 정의하기
  2. 데이터 모으기
  3. 데이터 다듬기
  4. 데이터 분석하기
  5. 데이터 시각화 및 커뮤니케이션

문제 정의하기

해결하고자 하는 문제를 정의

이 단계에서는 해결하고자 하는 게 무엇인지, 언제까지 어떤 결과물을 얻을 것인지, 어떤 방식으로 데이터를 활용할 것인지 등을 설정

  • 목표 설정
  • 기간 설정
  • 평가 방법 설정
  • 필요한 데이터 설정

데이터 모으기

필요한 데이터를 모을 수 있는 방법 탐구

누군가 이미 모아 놓은 데이터를 그대로 사용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아 볼 수도 있고, 혹은 웹사이트에서 직접 데이터를 수집 가능

  • 웹 크롤링
  • 자료 모으기
  • 파일 읽고 쓰기

데이터 다듬기

데이터의 퀄리티를 높여서 의미 있는 분석이 가능하게끔 수정

“쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)”

  • 데이터 관찰하기
  • 데이터 오류 제거
  • 데이터 정리하기

데이터 분석하기

준비된 데이터로부터 의미 분석

  • 데이터 파악하기
  • 데이터 변형하기
  • 통계 분석
  • 인사이트 발견
  • 의미 도출

커뮤니케이션

분석 결과를 다른 사람들에게 전달

어떤 문제를 해결하려 했는지, 어떻게 데이터를 모았는지, 어떤 방식으로 어떤 인사이트를 얻었는지 등을 다른 사람들에게 전달

  • 다양한 시각화
  • 커뮤니케이션
  • 리포트

+ Recent posts