본문 바로가기

스터디스터디/경영통계학

확률변수와 확률분포의 의미

최초 작성일: 25.10.09

최종 작성일: 25.10.09

 

1절 확률변수 : 이산확률변수와 연속확률변수

1.1 확률변수

  • 확률실험(우연)에 의하여 결정된 양적변수(수치)
  • 확률실험에서 나타날 수 있는 모든 가능성을 가진 결과의 수치로 부여된 함수 또는 규칙

(예)

A대리점은 하루에 스마트폰을 몇대 판매하는 지 조사하고자 한다

하루에 스마트폰이 10대가 판매될 수도 있고, 어떤 날에는 15대 일수도 있다.

이때 판매한 스마트폰의 수는 확률변수가 되며,

하루에 판매한 스마트 폰의 수를 파악하는 것은 확률실험이 된다

  • 확률실험의 결과는 어떤 특별한 순서로 발생하는 것이 아니기 때문에 시행할때마다 다른 값을 나타낼 수 있어그에 따르는 수 또는 수량은 변수가 됨
  • 모집단에서 N 개의 표본을 추출할 수 있을 때, 확률의 개념에 따라 특정 표본을 추출하고, 추출되는 표본에 따라 평균이나 분산이 매번 변하기 때문에 확률변수가 가질 수 있는 수치를 실험 결과로서 나타남
  • 확률변수는 수치를 사용하여 실험결과를 기술하는 수단을 제공함
    -확률변수는 표분공간을 구성하는 모든 표본점들에 수치를 부여함
    -통계분석 시 자주 사용하는 표본통계량도 확률변수에 속함
  • 확률변수는 대문자 X,Y로 표시하지만 그가 취하는 가능한 값들은 소문자 x,y로 표시함
    (예)
    a전자는 올해 최신형 스마트 기기를 발표하였는데, 스마트 기기 발표 현장에서 스마트 기기를 시연한 고객들의반응이 좋은면 1, 좋지 않으면 0이라고 할때, 좋아요와 싫어요가 나타날 확률 P는다음과 같음
    P(X=1) = 1/2, P(X=0)=1/2 

1.2 이산확률변수와 연속확률변수

1) 이산확률변수

  • 표본공간의 결과(확률변수가 취하는 값)가 셀 수 있는 정도로 한정되어 있고 확률변수가 취할 수 있는 모든 가능한 값이 정수와 같이 하나한 셀수 있고 나열할 수 있는변수

(예)

A회사에 구성원이 1,000명이 있을때 남자직원의 수를 확률변수로 한다면 이 확률변수가 취할 수 있는 값은 0~1000 사이의 정수로 제한되기 때문에 이때 확률변수를 이산확률변수라고 할 수 있음

  •  이산확률분포에서 가장 많이 사용되는 대표적인 분포는 이항분포

2)연속확률변수

  • 확률변수가 취할수 있는 값의 수가 무한한 변수

(예)

가족의 연간 소득, 배터리 수명, 기름의 연간 수입량, 체중, 키 , 온도 등

  • 연속확률분포에서 가장 많이 사용되는 대표적인 분포는 정규분포

2절 확률분포 : 이산확률분포와 연속확률분포

2.1 확률 분포

  • 확률실험의 가능한 모든 결과를 수치로 나타내고, 각 결과에 대응하는 확률을 나열한 도수분포표, 그래프 또는 함수를 말함
  • 즉, 어떤 확률변수가 실험의 결과를 취할 수 있는 모든 가능한 결과와 함께 각 결과에 대응하는 확률을 나열한 분포를 말함
  • 확률 분포는 상대도수분포와 유사하지만, 과거에 발생한 것을 기술하는 것이 아니고 미래에 발생할 사상에 관한 것을기술함 

2.2 이산확률분포

  • 확률분포는 관심의 대상이 되는 변수가 이산확률변수인 경우에는 이산확률분포를 계산할 수있음
  • 이산확률변수는 취할 수 있는 가능한 값이 유한한 정수이기 때문에 특정한 확률변수 값에 대한 확률을 계산할 수 있으며, 확률분포표로도 나타낼 수 있음
  • 이산확률분포에는 이항분포, 포아송분포, 초기화 분포 등이 있음  

(예)

P(X=2) = 0.3은 확률변수 X가 값으로 x= 2를 취할 확률이 0.3이라는 것을 의미함

 

2.3 연속확률분포

  • 연속확률변수는 키, 온도, 무게, 거리 등과 같이 취할 수 있는 값이 무한히 많고 어떤 유한한 구간에 있어서도 무한한 실수값을 가질수 있기 때문에 연속확률 변수가 어떤 특정한 값을 가질 확률은 0
  • 연속확률변수는 특정범위(구간) 사이에 어떤 실수값도 가능하기 때문에 모든 가능한 값을 일일이 나열하기 어려움
  • 연속확률변수의 확률은 특정범위에 대해서 구하게 됨
  • 연속확률변수가 어떤 구간내에 가능한 모든값들을 취할 수 있기 때문에 연속확률분포의 모양은 부드러운 곡선으로 표현됨
  • 연속확률분포에서 확률밀도함수는 분포(그래프)의 모양을 나타내고, 확률은 f(x)와 X축에 있는 어느 구간의 넓이(면적)로써 구함  
  • 연속확률분포에는 균등분포, 정규분포, 지수분포, t분포, F분포 등이 있음

3절 확률함수 : 확률질량함수와 확률밀도함수  

3.1 확률함수

  • 확률분포에서 확률변수 X가 어떤 특정한 실수값 x를 취할 확률을 일일이 나열하지 않고 x의 함수로 간편하게 나타낸것
  • 확률분포를 함수로 나타낸것
  • 확률함수는 보통 이산변수의 경우, x의 모든 값에 대하여 P(X=x)=P(X)로 나타내고, 연속변수의 경우, f(X)로 나타냄 
  • 확률함수는 대상이 되는 변수가 이산확률변수 또는연속확률변수이냐에 따라 확률질량함수와 확률밀도함수로 나눌 수 있음 

3.2 확률 질량함수

  • 질량함수라는 이름은 이산확률변수의 값과 관련이 있는 모든 결과가 그래프 위에서 수직선의 높이(또는 질량)으로 그 값의 확률을 나타내는 사실에서 연유함
  • 이산확률변수 X가 취할 수 있는 각 실수값 x에 확률을 대응시키는 함수
  • 확률질량함수는 이산변수가 취할 수 있는 이산점 x에서 0보다 큰 확률을 취함
  • 즉, 확률질량함수는 이산변수 X가 실수값 x를 가질 확률

 

 

3.3 확률 밀도 함수

  • 연속확률변수 X가 취할 수 있는 어떤 실수 구간 속에 실수값 x에 확률을대응시키는 함수
  • 보통 f(X)로 표시함
  • 이산확률분포 P(X)는 확률을 나타내지만, f(X)는 연속확률분포의 모양을 나타낼 분 확률을 의미하지 않음
  • 확률질량함수에서는 이산확률변수 X가 특정한 값 a를 취할 확률은 P(X=a)로 표시할 수 있는 반면, 연속확률변수는 취할수 있는 무한히 많은 실수값 가운데 어떤특정 실수를 취할 확률은 0에 가까움
  • 즉, P(X=a) =0
  • 연속확률본포에서의 확률은 확률밀도함수 f(X)와 X축 사이에 있는 어느 구간의 넓이로 구함 (적분하여)
  • 확률밀도함수는 세가지 조건이 만족되어야함
    -특정한 값 x가 발생할 확률 P(X=x) = 0
    -모든 X에 대하여 f(x) >=0
    -모든 X에 대한 확률의 합은 1