줄기잎그림 | 데이터 정보와 분포를 한번에 시각화 - 인사이트 정보 제공하는 블로그

개요

QC 7가지도구 중 히스토그램에서는 데이터를 여러 개의 계급으로 나누어 각 계급에서의 도수나 상대도수를 계산하고 이를 그래프로 표현하기 때문에 데이터 하나 하나의 관측값들은 그래프 상에서 보이지 않는 단점이 발생합니다. 줄기잎그림(Stem and Leaf Display)은 이러한 단점을 보완하기 위해 히스토그램과 같은 기능을 가지면서 각 관측값들도 그래프에서 보일 수 있도록 정리하는 시각화 방법입니다. 따라서 줄기잎그림은 데이터를 요약하여 분포 형태를 알려 줄 뿐만 아니라 그래프로 부터 원래의 데이터를 그대로 볼 수 있습니다. 요약하자면 줄기잎그림은 데이터가 가진 정보를 보존하면서도 데이터의 형상까지 볼 수 있는 장점을 가지고 있다는 것입니다.

줄기잎그림 그리는 순서

데이터의 관측값 중 큰 단위에 해당하는 값을 줄기로 분류하고 작은 단위로 나타나는 값을 잎으로 표시합니다.
먼저 줄기값을 크기 순으로 정렬한 후 이를 세로로 나열합니다.
각 줄기에 해당하는 각 데이터의 잎의 값을 해당 줄기값의 오른쪽에 가로로 적습니다.
줄기와 잎의 값을 구분하기 위해 줄기와 잎 사이에 수직선을 연결합니다.

Data Set

아래는 어느 학급 30명 학생의 수학 점수를 조사한 결과 데이터입니다. 이 데이터를 이용하여 히스토그램과 줄기잎그림을 그려 특징을 비교해보겠습니다.

학생번호	수학점수	학생번호	수학점수	학생번호	수학점수
1번	45	11번	85	21번	65
2번	65	12번	72	22번	55
3번	71	13번	69	23번	63
4번	43	14번	73	24번	75
5번	46	15번	74	25번	71
6번	87	16번	75	26번	81
7번	96	17번	79	27번	57
8번	75	18번	85	28번	92
9번	72	19번	52	29번	89
10번	69	20번	56	30번	44

30명의 수학점수를 정리하여 왼쪽에는 히스토그램을 오른쪽에는 줄기잎그림을 그려 보았습니다. 위에서 학습한 바와 같이 히스토그램은 데이터 전체의 형태를 알 수는 있지만 원래 데이터 정보의 손실은 감수해야만 합니다. 그러나 줄기잎그림은 원래의 데이터의 정보를 보존하면서 데이터의 분포도 보여주고 있습니다. 중요한 부분으로 2~3번 반복해서 줄기잎그림 특징을 강조하고 있는데 이해하기 어려운 건 아니시겠죠? 파이썬을 이용하여 두 그래프를 그려보았습니다. 특히 파이썬에서 제공하는 줄기잎그림은 전통적인 줄기잎그림보다 좀 더 표현하려는 노력이 보이는 것 같습니다. 그림에서 Ⓐ는 아래서부터 위로 데이터의 수를 누적으로 표현하고 있습니다. Ⓑ는 적색 수직선을 기준으로 왼쪽은 줄기, 오른쪽은 잎을 표현하고 있습니다. 잎은 1자리로 구성되고 있음을 그래프 우측 설명란(9.2×10 = 92.0)을 보면 알 수 있습니다.

부연 설명

히스토그램에서 계급의 수를 정하는 것이 중요하다면 줄기잎그림에서는 줄기의 개수를 몇 개로 하느냐에 따라 여러 가지 형태의 그림이 나올 수 있습니다. 파이썬에서는 매개변수를 자유롭게 이용하여 줄기수를 줄이고 늘리릴 수 있기 때문에 여러번의 출력으로 가장 적합한 줄기잎그림을 선택하면 되겠습니다. 이 때 가장 적절한 줄기의 개수는 상황에 따라 다르기 때문에 일률적으로 정할 수는 없고 이러한 점이 줄기잎그림의 단점 중의 하나일 수도 있습니다.

그러나 줄기잎그림은 앞에서 다룬 히스토그램과는 달리 우리가 원하기만 하면 언제든지 원래 의 데이터를 줄기잎그림으로부터 얻을 수 있고 데이터의 값을 크기순으로 나열하는 것 또한 용이하여 중앙값과 같은 어떤 특정 위치에 있는 데이터를 쉽게 구할 수 있다는 장점도 있습니다.

따라서 단순히 데이터를 보관하거나 정리하는 목적 이외에 줄기잎그림에 의해 데이터의 특징까지 파악하고자 할 때에는 이를 잘 반영할 수 있도록 줄기의 개수를 늘리거나 줄이면서 줄기잎그림을 작성할 필요가 있습니다. 줄기의 개수를 늘이면 그에 따른 데이터의 다른 상태를 알아볼 수도 있으나 줄기의 개수를 마냥 늘리는 것이 좋을 수만은 없습니다. 줄기의 개수가 너무 많아지면 줄기 하나에 데이터가 한 두개 밖에 존재하지 않아 데이터의 분포 상태를 파악하기 어려워져 오히려 혼란스러운 시각화 자료가 될 수 있다는 점을 유의 하시기 바랍니다.

분석 및 해석

줄기잎그림을 맨 아래서부터 살펴보면 43점, 44점 2개 데이터가 있고 그 위에 45점과 46점 2개 데이터가 있는데 밑의 2개를 누적하여 Ⓐ 부분에서는 4로 표현하고 있습니다. 이후 데이터도 같은 방법으로 확인하면 되겠습니다. 30명의 수학점수가 70점대가 가장 많고 중심으로 좌우 퍼져 있는 분포 형상을 확인할 수 있습니다. 그럼 데이터 분포가 어떤 유형인지 정량적으로 좀 더 구체적으로 확인해보겠습니다.

중앙값은 Box Plot에서 포스팅한 바와 같이 데이터를 오름차순으로 정렬한 후 정중앙에 위치한 값이라고 설명한 바 있습니다. 여기서 수학점수를 조사한 학생수는 짝수(30명)로 15, 16번째 데이터의 평균이 중앙값입니다. 줄기잎그림 Ⓐ 위치의 13은 같은 행 Ⓑ의 마지막 69점(누적 13번째 데이터)를 가리키고 그 위의 Ⓑ를 보면 14번째 71점, 15번째 71점, 16번째 72점을 확인할 수 있습니다. 이제 15, 16번째 데이터의 평균을 구하면 이 값이 중앙값이 됩니다. (71+72)/2 = 71.5점

30명의 수학점수의 평균은 69.4점이며 중앙값 71.5점과 비교하면 다소 차이가 있지만 이 정도는 치우침이 크다고는 할 수 없습니다. 따라서 이 학급의 수학점수 분포는 중심을 기준으로 좌우 퍼진 분포임을 확인할 수 있습니다. 다만 좌우 꼬리가 두꺼운 부분 때문에 정규성 여부는 검정을 통해 정확히 알아봐야 할 것 같습니다. 다음 기회가 되면 정규성 검정에 대해서도 포스팅해 보겠습니다.

맺음말

줄기잎그림은 자료의 분포와 중심 형상을 확인하고 시각적으로 표현할 수 있는 품질관리 도구입니다. 복잡한 데이터도 그래프로 표현함으로써 보다 빠르게 분석하고 이해할 수 있습니다. 공정관리뿐만 아니라 전사적 품질경영 활동에서 제반되는 연속형 데이터를 가지고 EDA 측면에서 시각화하면 데이터 분석에 대한 올바른 방향을 잡을 수 있고 보다 효과적인 분석으로 인사이트를 제공할 수 있습니다.