최초 작성일 : 25.09.29
최종 작성일 : 25.09.29
1절 산포도의 측정치 : 분산, 표준편차, 변동계수
1.1 분산
- 개별 자료와 평균의 차이인 편차를 모두 합하면 항상 0이 되기 떄문에 아무런 정보를 확인할수 없음
- 정보를 확인할 수 없는 문제를 해결하고자 모든 편차를 제곱하여 모든 자료에 대해 이들을 합친 후 평균을 구하게 됨
→이를 분산이라 하며, 편차 제곱의 평균을 계산한 것 - 분산은 주어진 자료값들이 그들의 평균 주위로 얼마나 떨어져 있는 가를 보여줌
- 작은 값의 분산은 자료들이 평균 주이에 집중되어 있다는 것을 의미하고, 큰 값의 분산은 자료들이 평균을 중심으로 멀리 흩어져 있음을 의미함

분산공식
-분산은편차를 제곱하여 계산하기 떄문에 평균으로부터 멀리 떨어진 관찰 값일수록 그 의미가 증폭되어 나타남
-분산은 편차를 제곱하였기 떄문에 분산의 단위로 관찰의 단위를 그대로 사용할 수 없는 문제가 발생함
-표본분산은 모분산의 추정치로 사용되며, 표본분산의 공식에서 (n-1) 대신에 n을 사용하여 편차제곱의 평균을 구하게 되며 모분산의 과소평가하게 되어 편의 추정치를 제공하게 됨
-(n-1)을 사용함으로써 표본이 작은 경우 모분산보다 표본분산이 약간 크게 되는데 이는 모집단 대신 표본사용에 따른 추가적인 불확실성을 반영하기 위함
-(n-1)을 자유도라고 하며 특성치를 계산할 때 자료 가운데서 자유롭게 값을 취할 수 있는 관측치의 수를 의미함
(예) 1,2,9의 자료에서 평균은 4
평균을 알고 있으면 세 숫자 가운데 자유롭게 어떤 두숫자만 알게되면(n-1 = 3-1=2)만 알게 되면 나머지 한 숫자는 자동적으로 알게
1.2 표준편차
- 분산은 각 자료에 대한 편차제곱으로 구하기 때문에 원자료의 단위보다 큰 단위로표시하게 됨
(예) 한 학년의 학생 키를 cm로 구하였다고 하면, 이때 평균은 cm 단위를 사용할 수 있지만분산 - 분산의 한계를 극복하기 위해 분산을 계산한 뒤 그것의 제곱근을 구한 표준편차를 자주 사용하게 됨
- 대부분의 경우 분산은 논리적 의미를 갖지 않는 단위로 표현됨
→원자료의 단위로 환원하여 평균과 동일한 단위를 사용하기 위해서 분산의 정의 제곱근을 구하는데 이것이 표준편차 - 표준편차(strard deviation)는 평균이나 다른 통계량과 동일한 단위로 쉽게 비교할 수 있어 산포도를 측정하는 데 많이 이용됨
- 표준편차는 각 관측기들이 평균으로부터 얼마나 떨어져 있는가를 나타냄으로써 변동을측정함
- 관측치들이 평균적으로 평균에 근접해 있으면 변동의 수준은 낮고, 표준편차도 작은 값을 가짐
- 극닥적으로 모든 관측치들이 동일하게 변동이 없는 경우에는 분산과 표준편차의 값은0이 됨
- 표준편차는 아주 큰 관측치에 영향을 받는 결점을 가짐
- 표준편차는 위험수준을 측정하는데 사용됨 (가격 변동이 심한 주식의 측정, 납기 변동이 심한 업체 선정의 측정)
- 표준편차는 모집단이냐 표본이냐에 따라서 모 표준편차와 표본표준편차로 구분함




※체비셰프의 정리
- 표준편차는 분산과 같이 자료들이 그의 평균으로부터 흩어진 정도를 측정함
- 자료의 분포가 평균을 중심으로 좌우 대칭을이루어 종모양을 중심으로 이루어진다는 경험법칙이 성립함
- 만일 자료의 분포가 정규분포가 아니거나 조사자가 모를 때에는 체비셰프의 정리를 적용할 수 있음
- 표본이든 모집단이든 어떤 자료에 있어서 평균 +- <표준편차 범위 내에 존재할 자료의 비율은 적어도 판단할 수 있음



1.3 변동계수
- 돈과 연령과 같이 측정단위가 다르거나 같더라도 평균에 있어 큰 차이가 있을 경우, 표준편차를 직접 비교하는데 무리가 발생할 수 있음
→이런 경우 표준편차 또는 분산과 같은 절대적 측정치보다 평균을감안한 변동의 상대적 측정치로 비교할 수 있음 - 둘 이상의 분포에 대한 변동계수를 비교할때 가장 큰 CV를갖는 분포는 가장 큰 분산을 갖는다고 말할 수 있음
- 변동 계수 공식 = 표준편차/평균


2절 상대위치의 측정치 : 백분위수, 사분위수, Z값1
2.1 백분위수
- 자료를 분석할 때 특정 자료의 상대적위치를 알고자 하는경우가 있음
(예) 토익, 토플 시험에서 점수와 함께 전체 응시생 중에서 차지하는 특정 응시생의 위치이며 이 점수를 백분위수라고함 - 주어진 자료를 크기 순서로 배열하였을 때 한 가운데가 아닌 다른 상대적 위치에 있는 자료를 알고자 하는 경우 사용하는 것이 사분위수와 백분위수
- 자료를 크기 순서로 정리하여 백등분 하였을 때 각 등분점에 위치하는 자료

P번째 백분위수를 계산하는 절차
-자료를 작은 것부터 큰 순서대로 배열
-지수 i를 계산
i = (p/100)n
p: 관심 있는 백분위수, n : 자료의 수
- i가 정수가 아니면 i보다 큰 가장 가까운 정수를ㅈ 정함 p 번째 백분위수의 값
-만일 i가 정수이면 p번째 백분위수는 i와 (i+1)의 있는 자료를 평균한 것이
2.2 사분위수
- 크기순으로 정렬된 자료들을 네개의 동일한 부분으로 분리하여 구훈 수치
- 백분위수 중에서 25번째 백분위 수, 즉 자료들의 하위 25%를 1분위수, 50번째 백분위수를 2분위수 또는 중앙치 Q2, 75번째 백분위수를 3분위수 Q3라고 함
- 3사분위수와 1사분위수의 차이를 사분위수 범우 : IQR라고 함
→이를 정렬된 자료 가운데 위치한 중간 50%가 흩어진 정도를 측정함


2.3 Z값 (Z score, Z valut)
- 구간 자료와 비율자료와 같은 양적 자료의 평균과 표준편차를 이용하여 특정 자료의 상대적 위치를 측정하는 또하나의 척도
- 백분위 수처럼 특정 관측치가 평균의 위 또는 아래로 부터 몇개의 표준편차 만큼 떨어져 있는 가를 나타내는 상대적 위치를 결정해줌






3절 형태의 측정치 : 비대칭도, 첨도
3.1 비대칭도
- 중심경향의 측정치와 산포도는 자료들이 어떤 값을 중심으로 분포되어 있는가, 또 자료들의 흩어진 정도는 얼마나 되는 가를 나타냄
- 자료들이 대표치 중심으로 좌우대칭으로 분포되어 있는가 또는 어느 한 쪽으로 치우쳐 있는가의 형태는 밝혀주지 못함
- 자료의 분포 모양을 측정하는 형태 측정치로 비대칭과 첨도가 있음
- 수집된 자료의 분포가 좌우대칭인가 또는 비대치이면 오른쪽 꼬리를 가진 분포인지, 왼쪽 꼬리를 가진 분포인지 알고 싶은 경우에 비대치도(왜도)를 측정해야함
- 변수의 분포 형태에 따라 중심경향을 나타내는 대표치들의 상대적 위치를 그림으로 나타낼 수 있음
- 중앙치는 항상 평균과 최빈치 사이에 위치하고 평균은 극단적인 변수 값의 변화에 크기 영향을 받은
- 중양치와 최빈치는 거의 영향을받지 않음





sk의 값은 -3부터 3까지의 값을 가짐
sk=0 분포의 중심에서 평균=중앙치=최빈치이고, 자료의 분포는 좌우대칭
sk>0 오른쪽이 긴꼬리
sk<0 왼쪽이 긴꼬지

3.2 첨도
- 비대치도는 분포의 모양이 좌우대칭인지, 오른쪽 꼬리 분포인지, 왼쪽 꼬리분포인지 등과 같이 늘어진 꼬리의 방향을 나타냄
- 첨도는 자료분포의 뽀쪽함(peakness)정도를 측정함
- 첨도가 큰 값을 가지면 분포는 뾰족한 봉우리를 가지며 작은 값을 가지면 봉우리를 가짐
- 첨도는 이상치가 있는 정도에 대한 측정 도구로서 정규분포의 경우 첨도 통계값은 0
- 자료의 분포가 뾰족한 정도이며, 정확히 초과첨도를 의미함

'스터디스터디 > 경영통계학' 카테고리의 다른 글
| 확률변수와 확률분포의 의미 (0) | 2025.10.09 |
|---|---|
| 확률이론 - 집합과 확률이론 (0) | 2025.10.05 |
| 기술통계학(요약 통계량) - 중심경향 및 산포도 (1) | 2025.09.23 |
| [WIP]기술통계학 - 자료의 정리와 표현 (0) | 2025.09.21 |
| 기술통계학 - 자료의 종류와 형태 (1) | 2025.09.14 |