1. 데이터 시각화란?
말 그대로 데이터를 눈으로 볼 수 있게 여러 형태로 표현하는 것을 말한다.
즉 데이터 수치에서는 찾을 수 없던 새로운 인사이트를 얻을 수도 있으며,
데이터를 보는 사용자나, 필요한 분석에 따라 사용하는 유형이 달라진다.
2. 데이터 시각화의 유형
1. 그래프
그래프는 가장 대표적인 시각화 방법으로, 그래프 중에서도 '꺾은선그래프'를 가장 많이 사용한다.
주로 시간에 따른 데이터의 변화나 경향성을 강조하고 싶을 때 사용하는 시각화 방법으로,
데이터를 꺾은선그래프로 표현하기 위해서는 가로축에 '시간', 세로 축에 설명하려는 값을 정리해야 한다.
여러 종류를 표현하기 위해서는 다양한 색상으로 표시한다.
2. 히스토그램
히스토그램도 그래프를 활용한 시각화 방법에서 많이 사용하는 유형 중 하나이다.
대략적인 데이터의 분포를 파악하고 싶을 때 사용하는 방법으로, 가로축에는 '분포를 알고 싶은 변수',
세로축에는 '각 변숫값의 빈도'를 정리한다. 히스토그램을 사용하면 데이터가 어떤 값에 분포돼 있는지,
또 가장 큰 값과 작은 값은 무엇인지 쉽게 파악할 수 있다.
꺾은선그래프와 마찬가지로 바로 변숫값을 적절한 간격으로 나눠 빈도를 계산해야 한다는 점에 주의해야 한다.
히스토그램과 비슷한 유형의 시각화 방법으로 '막대그래프'가 있다. 엄밀히 말하면 막대그래프는 범주형 변수 또는
이산형 변수의 빈도를 시각화한 것으로, 막대가 서로 떨어져 있고, 히스토그램은 연속성 변수의 빈도를 시각화한 것으로,
막대가 서로 붙어있다는 차이가 있다. 하지만 실무적으로는 두 시각화 방법을 잘 구분하지 않고 있다.
3.테이블
테이블 중에서도 '히트맵'은 가장 많이 사용하는 시각화 방법이다.
히트맵은 여러 변수 간의 관계를 색상의 차이를 이용해 표현한 것으로, 여러 변수 간의 상관 관계를 시각화하는 데
유용하다.
4. 지도
각 지역에 해당하는 데이터 값에 따라 지정된 색을 채우면 지도를 이용해 지역별로 어떤 차이가 있는지 등의
경향성을 쉽게 파악할 수 있다.
5. 시각화 도구
프로그래밍 언어마다 다양한 시각화 패키지를 제공한다. 파이썬의 경우 'Maplotlib', 'Seaborn' 등과 같은
시각화 패키지를 이용할 수 있다. 고정된 시각화가 아니라 사용자가 조작으로 원하는 정보를 볼 수 있는
'반응형 시각화'를 구현할 때는 'plotly', 지도 위에 시각화하고 싶다면 'folium'을 사용한다.
'Tableau', 'Spotfire', 'Qlikview' 등과 같은 시각화 소프트웨어를 활용해 시각화 자료를 만들 수도 있다.
(프로그래밍 사용하면 자유도 높은 시각화, 소프트웨어는 편리)
6. 대시보드
데이터 분석의 관점에서는 기업, 팀 등 조직의 상태를 파악할 수 있는 중요한 지표를 모아 놓은 일종의 보고서를 말한다.
대시보드는 반응형 보고서로, 기간, 계산 방식, 필터 등을 대시보드 사용자의 필요에 맞게 선택할 수 있고, 설정에 따라
커서를 올려 수치에 대한 설명을 얻을 수 있기 때문에 기존 보고서보다 능동적으로 중요 지표에 대한 정보를 확인할 수
있다. 대시보드 소프트웨어는 'BI(Business Intelligence) 도구'라고 부른다.
예로 'Tableau', 'PowerBI', 'Google Analytics' 등이 있다.
한 가지만 제대로 익히면 다른 소프트웨어도 쉽게 사용할 수 있다.
(학생은 무료로 사용할 수도 있으니 잘 알아보는 것이 좋다.)
'IT지식 > 빅데이터' 카테고리의 다른 글
[빅데이터] 웹 크롤링과 웹 크롤러 (0) | 2022.10.22 |
---|---|
[빅데이터] 데이터 분석 소프트웨어의 장점과 단점 (0) | 2022.10.22 |
데이터 기획자 - 업무, 필요 능력, 전망 한번에 정리 (2) | 2022.10.18 |
데이터 리서처 - 업무, 필요 능력 한번에 정리 (1) | 2022.10.15 |
데이터 사이언티스트 - 업무, 필요 능력, 취업 팁 한번에 정리 (3) | 2022.10.13 |