대학교/통계학개론

통계학개론 - (13) 다중회귀분석

매 석 2023. 5. 26. 16:05
반응형

- 다중회귀모형

종속변수 y가 독립변수 및 오차항과 어떤 관계가 있는지를 보여주는 식이다.

베타는 모수를 뜻하고, x는 독립변수를 뜻한다.

- 다중회귀식

y의 평균값과 x들의 관계를 설명하는 식이다.

- 추정 다중회귀식

단순무작위표본을 활용하여 모수 델타의 점추정치인

표본통계량 b를 사용하여 계산한다.

 

- 최소자승법

 

실측치와 추정치 간의 차이의 제곱의 합을

최소화하는 것을 최소자승법이라 한다.

EX)

연봉이 y, 경력과 점수가 x1,x2일 때 회귀모형은 다음과 같다.

추정치는 컴퓨터를 이용하여 계산할 수 있다.

연봉 = 3.174 + 1.404(경력) + 0.251(점수)

b의 값은 다른 독립변수가 일정할 때 x의 1단위 변화에 대한 y값 변화의 추정치이다.

예시로 모든 다른 독립변수가 일정할 때 경력 1년 증가할 때 연봉이 1404달러 증가한다.

 

- 다중결정계수

SST = 총제곱합, SSR = 회귀제곱합, SSE = 오차제곱합

- ANOVA 예시

MS = SS/df 로 구할 수 있다.

F는 MS의 위 값을 아래 값으로 나누어 구할 수 있다.

- 다중결정계수

TOTAL의 SST값이 무조건 크기에 0~1 사이의 갑이 나온다.

위의 결과 0.83418이 나온다.

- 수정 다중결정계수

p는 독립변수의 수를 의미한다.

- 오차항에 대한 가정

오차항은 평균이 0인 확률변수이다.

오차항의 분산은 독립변수들의 모든 값에 대해 동일하다.

오차항 값은 독립적이다.

 

- 유의성 검정

단순선형 회귀분석은 F검정과 T검정이 같은 결론이지만,

다중회귀분석은 F검정과 T검정의 목적이 다르다.

- F검정

종속변수와 모든 독립변수 집합 간에 유의한 관계가 존재하는지를 검정

t검정의 경우는 개별독립변수가 유의한지 여부를 검정한다.

개별 t검정은 모형에 있는 각 독립변수별로 수행된다.

- t 검정

t 검정통게량 값 예시)

1.4039 / 0.1986 = 7.07

0.25089 / 0.07735 = 3.24

 

 

- 다중공선성

 

독립변수들 사이의 상관관계를 지칭한다.

독립변수들이 높은 상관관계를 가질 때 어떤 특정 독립변수가

종속변수에 미치는 개별적인 영향을 파악하기 어렵다.

(즉 상관관계가 높은 독립변수들이 포함하지 않도록 해야 한다.)

- 범주형 독립변수

성별, 지불방법 등과 같은 질적 독립변수

예시로 x2가 성별로 나타낼 때 0과 1로 나타낼 수 있는데 이를 더미 변수라고 한다.

p-value가 보통 0.05를 넘으면 유의하지 않다고 한다.

- 복잡한 범주형 변수

질적변수가 k라면, k-1개의 더미변수가 필요하고,

각 더미변수에는 0혹은 1의 값이 부여된다.

이렇게 질적변수가 3개라면 2개의 더미변수가 필요하다.