*아래 글은 부스트캠프 AI Tech 3기 안수빈 마스터님의 강의를 정리 및 재구성한 내용입니다.
Data Visualization
1. 시각화 OT
1) 데이터 시각화란?
데이터 시각화란 데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것이다.
즉 데이터와 그래픽 요소를 이해하고, 이 둘을 연결지어 시각적으로 데이터를 표현하는 것이 데이터 시각화이다.
어떻게 보면 데이터 시각화는 부수적인 task라고 생각할 수 있지만, 절대 아니다.
데이터 시각화는 평생 혼자서 일을 할 생각이 아닌 이상 커뮤니케이션을 위해 필수적인 요소라고 생각한다.
어떤 프로젝트를 아무리 팀내에서, 또는 혼자서 잘하고 있다고 해도, 우리는 그 과정을 다른 사람들에게 잘 전달해야 한다.
결국 그 결과와 과정을 보는 것은 사람이기 때문에 사람들이 원하는 데이터를 보기 좋게 보여주는 것은 매우 중요한 일이다.
데이터 시각화를 하게 되면 스스로도 데이터에 대해 더 잘 이해할 수 있고, 다른 사람들에게 말하고자 하는 것을 잘 전달해서 중요한 일을 따낼 수도 있기 때문에 필수적으로 배워야 한다.
또한 데이터 시각화는 아래와 같이 다양한 요소들을 고려하면서 진행되어야 한다.
- 목적 : 이 데이터를 왜 시각화해야 하는지?
- 독자 : 시각화 결과를 누구에게 보여줄 계획인지?
- 데이터 : 어떤 데이터를 시각화 할 것인지?
- 스토리 : 시각화를 통해 어떤 흐름으로 어떤 인사이트를 전달할 것인지?
- 방법 : 전달하고자 하는 내용에 맞게 효과적인 방법을 사용하고 있는지?
- 디자인 : UI 내에서 만족스러운 디자인을 가지고 있는지?
2) 시각화의 요소
데이터 이해하기
- 데이터 시각화는 데이터셋 전체에 대한 시각화와 개별 데이터셋에 대한 시각화, 두 가지 방식이 존재
- 데이터 셋 종류
- 정형 데이터
- 테이블 형태
- csv, tsv 파일 형태로 제공
- 한 row가 하나의 item , column은 feature
- 가장 시각화가 쉬움 : 통계적 특성, feature 간 관계, 데이터 간 관계, 데이터 간 비교
- 시계열 데이터
- 시간 흐름에 따른 데이터를 time-series(시계열) 데이터라고 함
- 기온, 주가(정형 데이터) / 음성, 비디오(비정형 데이터)
- 시간의 흐름에 따른 추세, 계절성, 주기성이 중요
- 지리 데이터
- 지도 정보와 보고자 하는 정보 간의 조화가 중요 + 지도 간 정보 단순화
- 거리, 경로, 분포 파악 중요
- 관계형 데이터
- 데이터 객체들 간의 관계를 시각화
- 객체는 노드로, 관계는 link로
- 크기, 색, 수 등으로 객체와 관계의 가중치 표현
- 휴리스틱하게 노드 배치를 구성
- 계층적 데이터
- 관계 중에서도 포함관계가 분명한 데이터
- tree, treetop, sunburst 등이 대표적
- 기타 다양한 비정형 데이터
- 데이터(하나의 셀 단위)의 종류
- 수치형(numerical)
- 연속형(continuous) : 길이, 무게, 온도
- 이산형(discrete) : 주사위 눈금, 사람 수
- 범주형(categorical)
- 명목형(norminal, 어떤 사물의 속성을 상호 배타적인 몇 개의 카테고리로 나눌수만 있고, 서열이나 수치로 나타낼 수 없음) : 혈액형, 성별, 종교
- 순서형(ordinal, 상호 배타적인 몇 개의 카테고리로 분류하고, 카테고리 간의 서열 측정 가능 & 서열은 측정할 수 있지만 서열 간 차이는 측정 할 수 없음) : 학년, 별점, 등급
시각화 이해하기
- Mark : A mark is a basic graphical element in an image. 점, 선, 면으로 이루어진 데이터 시각화 요소
- Channel : A visual channel is a way to control the appearance of marks. 각 마크를 변경할 수 있는 요소들 ( 위치, 색, 모양, 기울기, 크기-길이, 면적, 부피 등)
- Pre-attentive attribute : 전주의적 속성, 주의를 주지 않아도 인지하게 되는 요소
* 전 주의적 속성을 적절히 활용하여 시각화하면 강조하고자 하는 바를 정확히 전달할 수 있다.
* 특히 color를 잘 활용하자! (color를 이용해 차이를 주는 것이 가장 효과가 좋다)

'부스트캠프 AI Tech 공부 기록 > Data Visualization' 카테고리의 다른 글
| [Data Viz] Text (feat.Matplotlib) (0) | 2022.02.06 |
|---|---|
| [Data Viz] Matplotlib 사용법 : Scatter Plot (0) | 2022.02.05 |
| [Data Viz] Matplotlib 사용법 : Line Plot (0) | 2022.02.05 |
| [Data Viz] Matplotlib 사용법 : Bar Plot (0) | 2022.02.04 |
| [Data Viz] Matplotlib 사용법 : 기본 (0) | 2022.02.03 |