대학교/통계학개론 14

통계학개론 - (14) 모집단 비율의 추정

- 표본비율의 표본분포 해당 식은 np(1-p)와 n^2에서 서로 n을 나누어 위와 같은 형태로 나타난다. ​ 표본비율의 분포는 표본의 규모가 커질수록 정규분포에 근사한다. np>=5 and n(1-p)>=5 - 모집단 비율 구간추정 방금 위에서 말한 조건을 만족할 때 정규분포를 사용하여 구간추정을 할 수 있다. 지금까지 봐왔던 구간추정가 비슷한 형태이다. 다만 표준편차의 공식을 모집단 비율에 대해 표현한 형태로 사용하여야 정확한 구간을 추정할 수 있다. ​ EX) 유권자 550명 중 220명의 유권자가 특정 후보 지지, 95% 신뢰구간 추정? -> n=500 표본비율=220/500=0.44 z=1.96 즉 0.3965~0.4835에서 95% 신뢰한다는 추정을 할 수 있다. - 모집단 비율 가설검정 모집..

통계학개론 - (13) 다중회귀분석

- 다중회귀모형 종속변수 y가 독립변수 및 오차항과 어떤 관계가 있는지를 보여주는 식이다. 베타는 모수를 뜻하고, x는 독립변수를 뜻한다. ​ - 다중회귀식 y의 평균값과 x들의 관계를 설명하는 식이다. ​ - 추정 다중회귀식 단순무작위표본을 활용하여 모수 델타의 점추정치인 표본통계량 b를 사용하여 계산한다. - 최소자승법 실측치와 추정치 간의 차이의 제곱의 합을 최소화하는 것을 최소자승법이라 한다. ​ ​ EX) 연봉이 y, 경력과 점수가 x1,x2일 때 회귀모형은 다음과 같다. ​ 추정치는 컴퓨터를 이용하여 계산할 수 있다. 연봉 = 3.174 + 1.404(경력) + 0.251(점수) ​ b의 값은 다른 독립변수가 일정할 때 x의 1단위 변화에 대한 y값 변화의 추정치이다. 예시로 모든 다른 독립변..

통계학개론 - (12) 단순선형회귀

- 단순선형회귀 하나의 독립변수와 하나의 종속변수가 관련된다. 두 변수의 관계는 하나의 직선으로 추정된다. 두 개 또는 그 이상의 독립변수를 포함하는 회귀분석은 다중회귀분석이라 한다. ​ - 단순선형회귀모형 모수와 오차항으로 표기할 수 있다. ​ - 단순성형회귀식 y절편과 기울기와 x값의 곱으로 y의 기대값을 표기하였다. ​ 양의 선형관계면 회귀선이 +, 음의 선형관계면 - 0이면 기울기가 0이다. ​ - 추정단순선형회귀식 y절편과 기울기와 x값의 곱으로 y에 대한 추정값을 표현하였다. ​ - 최소자승법 관찰값과 추정값의 차를 제곱한 것의 min을 구하는 것이다. ​ - 추정회귀식의 기울기와 y절편 추정회귀식의 기울기는 x와y의 공분산 / x의 분산으로 구할 수 있다. ​ 추정회귀식의 y절편은 종속변수의..

통계학개론 - (11) 두 집단 평균의 비교

- 두 모집단 평균 차이에 대한 추론 1. 짝 표본의 경우 짝 표본 방법에서는 추출된 각 표본항목이 한 쌍의 자료값을 가지고 있다. ​ EX) 두 택배사 a,b의 평균배송시간이 유의수준 0.05에서 차이가 있다고 할 수 있는가? 귀무가설 : =0, 대립가설 : !=0 t 값은 df=9에서 2.262가 나온다. 즉 2.94>2.262이므로, 귀무가설을 기각한다. 즉 두 택배회사의 평균 배송시간에 차이가 있다는 것을 적어도 95% 신뢰한다. ​ ​ 2. 표준편차 2개가 알려져 있는 경우 - 신뢰구간 추정 EX) 유의수준 0.05 점추정치 : 295-278 = 17야드 구간추정 : 17+-5.14 -> 11.86~22.14 사이가 95% 신뢰 ​ - 검정통계량 EX) 유의수준 0.01에서 Par사의 골프공의 ..

통계학개론 - (10) 가설검정

- 가설검정 모수의 값에 대한 진술이 기각되는지 아닌지를 결정하는데 사용된다. ​ 귀무가설 : 모수에 대한 임시적 가설이다. (항상 = 이 포함된다.) 대립가설 : 귀무가설과 반대되는 가설이다. ​ 대립가설을 먼저 설정하는 것이 더 용이한 경우가 있으며, 반대의 경우도 있다. ​ EX) 새로운 판매보너스 플랜이 매출을 증가시키기 위해 개발되었다. 대립가설 : 새로운 보너스 플랜이 매출을 증가시킨다. 귀무가설 : 새로운 보너스 플랜이 매출을 증가시키지 않는다. ​ EX) 약 20개의 이동 의료장치를 가진 다중 의료 시스템을 작동시켜, 평균 12분 이내에 대처하는 것이 목적이다. -> 귀무가설 : 평균 대응시간12 ​ - 1종 오류 귀무가설이 참인데도 기각하는 경우이다. 이를 범할 확률을 유의수준이라고 한다..

통계학개론 - (9) 구간 추정

- 구간추정 구간추정값은 오차한계라 불리는 값을 점추정값에 더하고 뺌으로써 계산된다. ​ 1. 모집단의 표준편차가 알려진 경우 - 대표적인 신뢰수준들에 대한 z값 ​ EX) n=36, 표본평균 소득은 41,100달러, 모집단의 분포는 대략 대칭적이다. 모집단 표준편차는 4,500달러로 추정된다. 그리고 구간추정을 위한 신뢰계수는 0.95가 사용된다. -> 오차한계 = 1.96*4500/6 = 1,470 즉 39,630~42,570달러 사이가 95% 신뢰할 수 있다는 것이다. 신뢰수준을 더 높이기 위해서는 오차한계와 신뢰구간의 폭이 더 커져야 한다. ​ ​ 2. 모집단의 표준편차가 알려지지 않은 경우 표본의 표준편차 s를 추정치로 사용한다. 이 때, 표본평균의 구간 추정값은 t분포에 기초한다. ​ - t ..

통계학개론 - (8) 표본추출과 점추정

- 표본추출 - 유한 모집단 규모 n인 유한한 모집단으로부터 규모 n은 표본 각각이 선택될 확률이 동일하다. ​ - 무한 모집단 모집단의 요소들이 계속 진행되는 과정에 있기 때문에 생성되는 요소의 수에 상한이 없다. ​ - 점추정 모집단 모수를 추정하기 위해 표본 통계량의 값을 계산하는데 표본 자료를 사용할 수 있다. 모집단이 정규분포일 때, 표분평균의 표본분포는 표본크기에 관계없이 정규분포이다. 대부분, 표본 규모가 30이상이면, 표본평균의 표본분포는 정규분포에 가까워진다. 모집단의 분포가 비대칭적이거나 극단값이 있는 경우, 표본 규모는 50이상이 좋다. ​ + 중심극한정리 모집단으로부터 규모 n의 무작위 표본을 선택할 때, 표본평균의 표본분포는 표본규모가 커질수록 정규분포에 가까워진다. ​ EX) 3..

통계학개론 - (7) 균일, 정규, 지수확률분포

- 연속확률분포 연속확률변수 : 연속된 어떤 구간이나 구간들의 집합에 있는 값을 취할 수 있다. - 특정한 값을 가진 확률변수의 확률값은 나타낼 수 없다. 대신 확률변수가 주어진 구간내에 있을 확률은 계산할 수 있다. - 균일확률분포 - 확률값이 구간 길이에 비례하면 확률변수는 균일하게 분포된다. ​ f(x)=1/(b-a), for a 바닥날 확률은 20.33%이다. ​ +원하는 확률로 조정하기 위해서는 z값을 이용하면 된다. 바닥날 확률을 5%미만으로 만들고 싶다면 z값이 95가 넘는 x값을 구하면 된다. - 이항확률의 정규근사 시행횟수 n이 커지면, 이항확률함수를 계산하기 어렵다. 정규분포는 n>20, np>=5 그리고 n(1-p)>=5일 경우 근사치를 제공한다. 예시) 송장 100개를 표본으로 추출..

통계학개론 - (6) 이항확률분포, 포아송확률분포

- 확률변수 - 하나의 실험에서 나타나는 결과를 수치로 나타낸 것 1.이산 : 유한한 수의 값 또는 무한수열의 값 (가족의 수) 2.연속 : 일정한 구간 또는 구간들의 집합에서 어떠한 수치적 값을 갖음 (거리) ​ ​ - 이산확률분포 : 표, 그래프 또는 방정식으로 나타냄 + 아래 조건을 만족해야 한다. 기대값 분산 - 이항분포 ​ - 이항실험의 4가지 속성 1. 실험은 n개의 연속된 동일한 시행(베르누이)으로 구성된다. 2. 각 시행에서 두 개의 결과가 가능하다. 3. 성공 확률을 p로 표시하는데 이 확률은 시행에 따라 변하지 않는다. 4. 각 시행은 독립적이다. - 기대값과 표준편차 - 포아송 분포 - 시간 또는 공간의 일정한 구간에서 발생하는 사건의 횟수를 추정하는데 유용하다. 무한한 일련의 값들을..

통계학개론 - (5) 확률, 사건, 베이즈 정리

- 확률 개요 - 확률 : 0~1 사이의 값, 특정 사건이 발생할 가능성에 대한 수치적 척도 - 실험 : 결과들을 산출하는 과정 (주사위 던지기) - 표본공간 : 발생 가능한 모든 실험 결과들의 집합 (주사위 1~6) - 표본점 : 실험결과 ​ - 계통도 : 다단계 실험 결과를 파악하는데 도움이 되는 그래프 ​ - 조합 : N개의 개체 중에서 n개의 개체를 뽑는 실험결과의 개수 - 순열 : N개의 개체 중에서 순서를 고려하여 n개의 개체를 뽑는 개수 - 확률의 부여 방법 1. 고전적(선험적) 방법 : 이론적인 확률을 부여 (주사위 던지기) 2. 상대도수(경험적, 자료기반) 방법 : 실험이나 역사적 자료에 기초하여 확률을 부여 (데이터) 3. 주관적 방법 : 주관적 판단에 기초하여 확률을 부여 (경제 예측..