[번역] Fundamentals of Data Visualization - 10 Visualizing proportions

2024. 8. 23. 12:31Machine Learning/Fundamentals of Data Visualization

10 Visualizing proportions

10.1 A case for pie charts


1961년부터 1983년까지 독일 의회(분데스탁)는 CDU/CSU, SPD, FDP 세 개의 정당으로 구성되었습니다. 이 기간 동안 대부분 CDU/CSU와 SPD는 대략 비슷한 의석 수를 가졌으며, FDP는 대개 작은 비율의 의석만을 차지했습니다. 예를 들어, 1976-1980년의 8대 분데스탁에서 CDU/CSU는 243석, SPD는 214석, FDP는 39석을 차지하여 총 496석을 구성했습니다. 이러한 의회 데이터를 가장 일반적으로 시각화하는 방법이 바로 파이 차트입니다.

동일한 절차를 직사각형에 적용할 수 있으며, 그 결과는 스택형 막대 차트가 됩니다.

파이 차트는 반, 3분의 1, 또는 4분의 1과 같은 단순한 비율을 강조하고자 할 때 잘 작동합니다. 또한 매우 작은 데이터셋을 다룰 때도 효과적입니다.
반면, 스택형 막대는 여러 조건에 대한 나란히 비교나 시계열에서 잘 작동하며, 나란히 배치된 막대는 개별 비율을 서로 직접 비교하고자 할 때 선호됩니다.

10.2 A case for side-by-side bars

이제 파이 차트가 실패하는 경우를 보여드리겠습니다. 이 예시는 원래 Wikipedia(2007)에 게시된 파이 차트에 대한 비판을 모델로 한 것입니다. A, B, C, D, E 다섯 개의 회사가 각각 대략 20% 정도의 시장 점유율을 가지고 있는 가상의 시나리오를 고려해 봅시다. 우리의 가상 데이터셋은 각 회사의 시장 점유율을 3년 연속으로 나열하고 있습니다. 이 데이터를 파이 차트로 시각화하면, 무엇이 어떻게 일어나고 있는지 파악하기가 어렵습니다. 회사 A의 시장 점유율이 증가하고 회사 E의 점유율이 감소하고 있는 것처럼 보이지만, 이 한 가지 관찰을 제외하고는 무슨 일이 일어나고 있는지 알 수 없습니다. 특히, 각 년도별로 서로 다른 회사들의 시장 점유율이 정확히 어떻게 비교되는지 불분명합니다.


스택형 막대 차트로 전환하면 그림이 조금 더 명확해집니다. 이제 회사 A의 시장 점유율이 증가하고 회사 E의 시장 점유율이 감소하는 추세가 명확히 보입니다. 그러나 여전히 각 연도별로 다섯 개 회사의 상대적인 시장 점유율을 비교하기가 어렵습니다. 또한 회사 B, C, D의 연도별 시장 점유율을 비교하는 것도 어려운데, 이는 각 연도별로 막대가 서로 상대적으로 이동하기 때문입니다.

이 가상의 데이터셋에서는 나란히 배치된 막대 차트가 가장 좋은 선택입니다. 이 시각화는 2015년에서 2017년 사이에 회사 A와 B가 시장 점유율을 증가시켰고, 회사 D와 E는 시장 점유율을 줄였다는 것을 강조합니다. 또한, 2015년에는 회사 A에서 E로 갈수록 시장 점유율이 순차적으로 증가했으며, 2017년에는 유사하게 감소했음을 보여줍니다.

10.3 A case for stacked bars and stacked densities

한 나라의 국회에서 여성의 비율을 고려해 봅시다. 특히, 2016년 기준으로 여성 국회의원 비율이 가장 높은 국가인 아프리카의 르완다를 살펴보겠습니다. 르완다는 2008년부터 여성 국회의원이 과반수를 차지해 왔으며, 2013년부터는 국회의원의 거의 3분의 2가 여성이 되었습니다. 르완다 국회에서 여성 비율이 시간에 따라 어떻게 변화했는지를 시각화하기 위해, 우리는 스택형 막대 그래프의 시퀀스를 그릴 수 있습니다(그림 10.7). 이 그림은 시간이 지남에 따라 변화하는 비율을 즉각적으로 시각적으로 보여줍니다. 독자가 과반수가 여성이 된 시점을 정확히 확인할 수 있도록, 50% 지점에 점선의 수평선을 추가했습니다. 이 선이 없으면 2003년부터 2007년 사이에 과반수가 남성인지 여성인지 판단하기 어려울 것입니다. 25%와 75% 지점에 유사한 선을 추가하지 않은 이유는 그림이 너무 복잡해지는 것을 방지하기 위함입니다.

스택형 밀도 차트가 적절할 수 있는 예로, 나이와 사람들의 건강 상태 간의 관계를 고려해 볼 수 있습니다. 나이는 연속 변수로 간주될 수 있으며, 이러한 방식으로 데이터를 시각화하는 것이 비교적 효과적입니다. 비록 여기서 네 가지 건강 카테고리가 있고, 앞서 논의한 바와 같이 여러 조건을 쌓는 것을 일반적으로 선호하지는 않지만, 이 경우에는 그림이 적절하다고 생각합니다. 사람들의 전반적인 건강이 나이가 들수록 감소한다는 것을 명확히 볼 수 있으며, 이러한 경향에도 불구하고 인구의 절반 이상이 매우 고령이 될 때까지도 좋은 또는 훌륭한 건강 상태를 유지한다는 점도 확인할 수 있습니다.

10.4 Visualizing proportions separately as parts of the total

데이터셋의 전체 연령 분포는 회색 음영 영역으로 표시되며, 각 건강 상태에 대한 연령 분포는 파란색으로 표시됩니다. 이 그림은 절대적인 의미에서, 30~40세를 지나면서 건강 상태가 매우 좋거나 좋은 사람들의 수가 감소하고 있는 반면, 보통 건강 상태를 가진 사람들의 수는 모든 연령에 걸쳐 대체로 일정하게 유지된다는 점을 강조합니다.


두 번째 예를 들어, 같은 조사에서 다른 변수를 고려해 보겠습니다: 결혼 상태입니다. 결혼 상태는 건강 상태보다 나이에 따라 훨씬 더 급격하게 변화하며, 결혼 상태와 연령 간의 관계를 스택형 밀도 차트로 시각화하는 것은 크게 유의미하지 않습니다.


동일한 데이터셋을 부분 밀도로 시각화한 그림.

위 그래프의 한 가지 단점은 이 표현이 특정 시점에서 상대적인 비율을 쉽게 파악할 수 없다는 점입니다. 예를 들어, 조사된 모든 사람 중 50% 이상이 결혼한 나이를 알고 싶다면, 위 그림에서는 쉽게 알 수 없습니다. 이 질문에 답하기 위해, 동일한 유형의 디스플레이를 사용하되, y축을 따라 절대적인 수치 대신 상대적인 비율을 표시하는 방법을 사용할 수 있습니다.