[번역] Fundamentals of Data Visualization - 4 Color scales

2024. 8. 21. 20:21Machine Learning/Fundamentals of Data Visualization

원문 Fundamentals of Data Visualization

4 Color scales

데이터 시각화에서 색상을 사용하는 세 가지 기본적인 용도가 있습니다. (i) 색상을 사용하여 데이터 그룹을 서로 구별할 수 있습니다; (ii) 색상을 사용하여 데이터 값을 표현할 수 있습니다; (iii) 색상을 사용하여 특정 요소를 강조할 수 있습니다. 이 세 가지 경우에서 사용하는 색상의 유형과 그 사용 방식은 서로 크게 다릅니다.

4.1 Color as a tool to distinguish

우리는 종종 색상을 사용하여 고유한 순서가 없는 개별 항목이나 그룹을 구분합니다. 예를 들어, 지도에서 서로 다른 국가를 구분하거나 특정 제품의 서로 다른 제조사를 구분할 때 색상을 사용할 수 있습니다. 이 경우, 우리는 정성적 색상 스케일(qualitative color scale)을 사용합니다. 이러한 스케일은 명확하게 구분되는 특정 색상의 유한한 집합을 포함하며, 이러한 색상들은 서로 명확히 구별되면서도 동등한 가치를 지닐 수 있도록 선택됩니다.
이 두 번째 조건은 어떤 특정 색상이 다른 색상들에 비해 두드러지지 않아야 한다는 것을 의미합니다. 또한, 색상들은 순서가 있는 것처럼 보이는 인상을 주어서는 안 됩니다. 예를 들어, 점차 밝아지는 색상의 연속은 항목들 사이에 순서가 있는 듯한 인상을 줄 수 있으며, 이는 기본적으로 순서가 없는 항목들에 부적절합니다.


이 그림은 미국에서 2000년부터 2010년까지의 인구 증가율을 보여줍니다.
서부와 남부에 있는 주들이 가장 큰 인구 증가를 보인 반면, 중서부와 북동부에 있는 주들은 증가율이 훨씬 낮았으며, 미시간 주의 경우 오히려 인구가 감소했습니다.
데이터 출처: 미국 인구조사국(U.S. Census Bureau).
이러한 색상 코딩을 통해 동일한 지역에 속한 주들이 유사한 인구 증가율을 보였음을 강조할 수 있습니다.

이 설명은 정성적 색상 스케일이 데이터 내의 그룹을 시각적으로 구분하고, 그 그룹 간의 관계나 패턴을 강조하는 데 어떻게 유용하게 사용될 수 있는지를 잘 보여줍니다.

4.2 Color to represent data values


색상은 소득, 온도, 속도와 같은 데이터 값을 표현하는 데도 사용될 수 있습니다. 이 경우, 우리는 연속적인 색상 스케일을 사용합니다. 이러한 스케일은 (i) 어떤 값이 다른 값보다 크거나 작은지를 명확히 나타내고, (ii) 특정 두 값이 서로 얼마나 떨어져 있는지를 나타내는 색상의 연속을 포함합니다. 두 번째 요점은 색상 스케일이 전체 범위에 걸쳐 균일하게 변해야 한다는 것을 의미합니다.

Choropleth 지도는 데이터 값의 지리적 패턴을 명확하게 드러내는 데 매우 유용합니다.


이 그림은 텍사스의 각 카운티에서 연간 중위 소득을 나타낸 것입니다. 가장 높은 중위 소득은 특히 휴스턴과 댈러스 근처의 주요 텍사스 대도시 지역에서 나타납니다. 서부 텍사스의 러빙 카운티는 중위 소득 추정치가 없어 회색으로 표시되어 있습니다. 데이터 출처: 2015년 5개년 미국 커뮤니티 조사(American Community Survey).

일부 경우에는 데이터 값이 중립적인 중간점을 기준으로 두 방향으로 편차를 나타내는 것을 시각화해야 할 때가 있습니다. 이 상황에서 적합한 색상 스케일은 발산 색상 스케일입니다. 발산 스케일은 일반적으로 두 개의 연속적인 스케일이 공통된 중간점에서 이어진 것으로 생각할 수 있습니다. 이 중간점은 보통 밝은 색으로 표현됩니다.


이 그림은 텍사스 카운티별로 자신을 백인으로 식별한 사람들의 비율을 보여줍니다. 비율은 항상 양수이지만, 50%가 의미 있는 중간점이기 때문에 이 경우 발산 스케일을 사용하는 것이 타당합니다. 50% 이상의 수치는 백인이 다수임을 나타내고, 50% 이하의 수치는 그 반대를 나타냅니다. 이 시각화는 백인이 다수인 카운티, 백인이 소수인 카운티, 그리고 백인과 비백인이 대략 동등한 비율로 존재하는 카운티를 명확하게 보여줍니다.

4.3 Color as a tool to highlight

색상은 또한 데이터에서 특정 요소를 강조하는 데 효과적인 도구가 될 수 있습니다. 데이터셋 내에 우리가 전달하고자 하는 이야기와 관련된 중요한 정보가 포함된 특정 카테고리나 값이 있을 수 있습니다.


2000년부터 2010년까지, 이웃한 두 남부 주인 텍사스와 루이지애나는 미국 전역에서 가장 높은 인구 증가율과 가장 낮은 인구 증가율을 경험했습니다. 데이터 출처: 미국 인구조사국(U.S. Census Bureau).


강조하려는 데이터 범주나 포인트를 제외한 모든 요소에서 색상을 제거하여 기본 색상들이 주목을 끌지 못하도록 할 수 있다.