본문 바로가기

부스트캠프 AI Tech 공부 기록/Data Visualization

[Data Viz] 데이터 시각화 개요

*아래 글은 부스트캠프 AI Tech 3기 안수빈 마스터님의 강의를 정리 및 재구성한 내용입니다.

Data Visualization

1.  시각화 OT

1) 데이터 시각화란?

데이터 시각화란 데이터그래픽 요소매핑하여 시각적으로 표현하는 것이다.

 

데이터그래픽 요소를 이해하고, 이 둘을 연결지어 시각적으로 데이터를 표현하는 것이 데이터 시각화이다.

 

어떻게 보면 데이터 시각화는 부수적인 task라고 생각할 수 있지만, 절대 아니다.

데이터 시각화는 평생 혼자서 일을 할 생각이 아닌 이상 커뮤니케이션을 위해 필수적인 요소라고 생각한다.

어떤 프로젝트를 아무리 팀내에서, 또는 혼자서 잘하고 있다고 해도, 우리는 그 과정을 다른 사람들에게 잘 전달해야 한다.

결국 그 결과와 과정을 보는 것은 사람이기 때문에 사람들이 원하는 데이터를 보기 좋게 보여주는 것은 매우 중요한 일이다.

데이터 시각화를 하게 되면 스스로도 데이터에 대해 더 잘 이해할 수 있고, 다른 사람들에게 말하고자 하는 것을 잘 전달해서 중요한 일을 따낼 수도 있기 때문에 필수적으로 배워야 한다.

 

또한 데이터 시각화는 아래와 같이 다양한 요소들을 고려하면서 진행되어야 한다.

  • 목적    : 이 데이터를 왜 시각화해야 하는지?
  • 독자    : 시각화 결과를 누구에게 보여줄 계획인지?
  • 데이터 : 어떤 데이터를 시각화 할 것인지?
  • 스토리 : 시각화를 통해 어떤 흐름으로 어떤 인사이트를 전달할 것인지? 
  • 방법    : 전달하고자 하는 내용에 맞게 효과적인 방법을 사용하고 있는지?
  • 디자인 : UI 내에서 만족스러운 디자인을 가지고 있는지?

2) 시각화의 요소

데이터 이해하기

- 데이터 시각화는 데이터셋 전체에 대한 시각화개별 데이터셋에 대한 시각화, 두 가지 방식이 존재

- 데이터 셋 종류

  • 정형 데이터
    • 테이블 형태
    • csv, tsv 파일 형태로 제공
    • 한 row가 하나의 item , column은 feature
    • 가장 시각화가 쉬움 : 통계적 특성, feature 간 관계, 데이터 간 관계, 데이터 간 비교
  • 시계열 데이터
    • 시간 흐름에 따른 데이터를 time-series(시계열) 데이터라고 함
    • 기온, 주가(정형 데이터) / 음성, 비디오(비정형 데이터)
    • 시간의 흐름에 따른 추세, 계절성, 주기성이 중요
  • 지리 데이터
    • 지도 정보와 보고자 하는 정보 간의 조화가 중요 + 지도 간 정보 단순화
    • 거리, 경로, 분포 파악 중요
  • 관계형 데이터
    • 데이터 객체들 간의 관계를 시각화
    • 객체는 노드로, 관계는 link로
    • 크기, 색, 수 등으로 객체와 관계의 가중치 표현
    • 휴리스틱하게 노드 배치를 구성
  • 계층적 데이터
    • 관계 중에서도 포함관계가 분명한 데이터
    • tree, treetop, sunburst 등이 대표적
  • 기타 다양한 비정형 데이터

- 데이터(하나의 셀 단위)의 종류

 

  • 수치형(numerical)
    • 연속형(continuous) : 길이, 무게, 온도
    • 이산형(discrete) : 주사위 눈금, 사람 수
  • 범주형(categorical)
    • 명목형(norminal, 어떤 사물의 속성을 상호 배타적인 몇 개의 카테고리로 나눌수만 있고, 서열이나 수치로 나타낼 수 없음) : 혈액형, 성별, 종교
    • 순서형(ordinal, 상호 배타적인 몇 개의 카테고리로 분류하고, 카테고리 간의 서열 측정 가능 & 서열은 측정할 수 있지만 서열 간 차이는 측정 할 수 없음) : 학년, 별점, 등급 

시각화 이해하기

- Mark : A mark is a basic graphical element in an image. 점, 선, 면으로 이루어진 데이터 시각화 요소

- Channel : A visual channel is a way to control the appearance of marks. 각 마크를 변경할 수 있는 요소들 ( 위치, 색, 모양, 기울기, 크기-길이, 면적, 부피 등)

- Pre-attentive attribute : 전주의적 속성, 주의를 주지 않아도 인지하게 되는 요소

   * 전 주의적 속성을 적절히 활용하여 시각화하면 강조하고자 하는 바를 정확히 전달할 수 있다. 

   * 특히 color를 잘 활용하자! (color를 이용해 차이를 주는 것이 가장 효과가 좋다)

pre-attentive attribute, 적절히 사용할 때 시각적 분리(visual popout)가 가능