2024. 8. 27. 13:14ㆍMachine Learning/Fundamentals of Data Visualization
13 Visualizing time series and other functions of an independent variable
시간은 데이터에 추가적인 구조를 부여하기 때문에, 데이터 포인트는 고유한 순서를 가지게 됩니다. 따라서 데이터를 시간의 증가 순서로 배열할 수 있으며, 각 데이터 포인트에 선행자와 후속자를 정의할 수 있습니다.
13.1 Individual time series
개별 시계열 시계열의 첫 번째 예시로, 생물학 분야에서 월간 프리프린트(preprint) 제출 패턴을 고려해 보겠습니다. 프리프린트는 연구자들이 과학 저널에서 공식적인 동료 심사(peer review)와 출판 이전에 온라인에 게시하는 과학 논문입니다. 생물학 연구자들을 위해 2013년 11월에 설립된 프리프린트 서버인 bioRxiv는 그 이후 월간 제출 건수가 크게 증가했습니다. 이러한 성장을 시각화하기 위해 각 달의 제출 건수를 나타내는 점을 그린 일종의 산점도를 만들 수 있습니다.
위 그림 x축을 따라 점들이 일정한 간격으로 배치되어 있으며, 점들 간에 정의된 순서가 있습니다. 각 점은 정확히 하나의 왼쪽 이웃과 하나의 오른쪽 이웃을 가집니다(가장 왼쪽과 오른쪽의 점들은 각각 하나의 이웃만 가짐). 우리는 이 순서를 시각적으로 강조하기 위해 이웃한 점들을 선으로 연결할 수 있습니다. 이러한 플롯을 선 그래프(line graph)라고 합니다.
일반적으로 시계열을 나타낼 때 선을 사용하는 것은 널리 받아들여진 관행이며, 종종 점을 생략하기도 합니다.
우리는 또한 곡선 아래 영역을 단색으로 채울 수도 있습니다. 이 선택은 데이터의 전반적인 추세를 더욱 강조하는데, 이는 시각적으로 곡선 위의 영역과 아래의 영역을 구분하기 때문입니다. 그러나 이 시각화는 y축이 0에서 시작하는 경우에만 유효합니다. 이렇게 해야 각 시점에서 채워진 영역의 높이가 해당 시점에서의 데이터 값을 나타내기 때문입니다.
13.2 Multiple time series and dose–response curves
종종 우리는 여러 시계열을 동시에 보여주고 싶어 합니다. 이 경우, 데이터를 어떻게 플로팅할지에 대해 더 신중해야 합니다. 그렇지 않으면 그림이 혼란스럽거나 읽기 어려워질 수 있습니다.
예를 들어, 여러 프리프린트 서버에 대한 월별 제출 건수를 표시하려는 경우, 산점도는 좋은 선택이 아닙니다. 이는 개별 시계열이 서로 겹쳐질 수 있기 때문입니다(그림 13.5). 이 문제를 해결하기 위해 점을 선으로 연결하는 방법이 도움이 됩니다
선을 직접 라벨링하는 방법을 사용할 수 있습니다. 또한, 이 그림에서는 개별 점을 제거하여 원래의 그림보다 훨씬 더 간결하고 읽기 쉬운 결과를 얻었습니다.
선 그래프는 시계열에만 국한되지 않습니다. 데이터 포인트들이 자연스러운 순서를 가지며 x축에 표시된 변수에 의해 반영될 때, 이웃한 점들을 선으로 연결할 수 있는 경우에도 적합합니다. 예를 들어, 실험에서 어떤 수치적 매개변수(용량)를 변경함으로써 관심 있는 결과(반응)에 어떤 영향을 미치는지를 측정하는 용량-반응 곡선에서 이러한 상황이 발생합니다. 이 유형의 고전적인 실험을 보여주며, 비료의 양이 증가함에 따라 귀리 수확량이 어떻게 변하는지를 측정한 결과를 나타냅니다. 선 그래프 시각화는 세 가지 귀리 품종에 대해 용량-반응 곡선이 유사한 형태를 보이지만, 비료가 없을 때의 출발점에서는 차이가 있음을 강조합니다(즉, 일부 품종은 자연적으로 더 높은 수확량을 가집니다).
13.3 Time series of two or more response variables
2개 이상의 반응 변수를 다루는 경우도 흔합니다. 이러한 상황은 특히 거시경제학에서 자주 발생합니다. 예를 들어, 실업률과 관련하여 지난 12개월 동안 주택 가격의 변화를 관찰하고자 할 수 있습니다. 우리는 실업률이 낮을 때 주택 가격이 상승하고, 반대로 실업률이 높을 때 하락할 것이라고 예상할 수 있습니다.
두 개의 별도 선 그래프를 보여주는 대신, 두 변수를 서로에 대해 플롯하고, 초기 시점부터 마지막 시점까지 이어지는 경로를 그릴 수 있습니다. 이러한 시각화를 연결된 산점도(connected scatter plot)라고 합니다.
2001년 1월부터 2017년 12월까지의 주택 가격 12개월 변화율과 실업률을 연결된 산점도로 나타낸 그림. 더 어두운 색상은 더 최근의 달을 나타냅니다. 주택 가격 변화율과 실업률 사이의 반상관 관계가 그림에서 관찰되며, 이로 인해 연결된 산점도에서 두 개의 반시계방향 원이 형성됩니다.
연결된 산점도를 그릴 때는 데이터의 방향과 시간적 스케일을 명확하게 표시하는 것이 중요합니다. 이러한 힌트가 없으면 플롯이 의미 없는 낙서처럼 보일 수 있습니다.