로지스틱 회귀분석에 대해 질문드립니다
좋은 책 정말 감사드립니다. 여기저기 통계 책들을 들여다보며 뜬구름 잡듯 했던 회귀분석에 대한 개념이 이 책 덕분에 실질적으로 명확해진 것 같습니다.
그런데 제가 지금 분석하려는 종속변수는 이분형 변수 라서 로지스틱 회귀분석을 사용해야 할 것 같은데요…이 책에는 로지스틱 회귀분석에 대한 내용은 매우 적어서…여기를 통해 질문드립니다.
1. 앞서 다중회귀분석에서는 다중공선성, 자기상관, 이상값, 잔차 검정 등을 일목요연하게 짚어주신 바 있습니다. 그렇다면 로지스틱 회귀분석에서도 이러한 내용들이 검토되어야 하는 건가요? SPSS에서 실제로 돌려봤는데 그런 항목, 예를 들면 VIF, Durbin-Watson, ZRE, SDF 등등에 대한 항목 자체가 아예 없더라구요. 로지스틱 회귀분석에서는 이러한 항목들을 무시하고 그냥 분석해도 되는지요?
2. 제가 지금 분석하려고 하는 연구에 이분형 독립변수가 많습니다. 선형회귀분석에서는 이러한 이분형 변수, 즉 더미변수들이 그래프의 기울기를 변화시키는 게 아니라 y 절편 값을 변화시키는 거라고 설명해주셨습니다. 책을 읽다보니 독립변수에 범주변수가 너무 많다면 선형 혹은 다중회귀분석의 본질적인 무언가가 훼손될 거 같다는 느낌이 들었는데요. 선형 혹은 다중회귀분석에서 범주형 변수 (더미변수)가 많아도 되는지요? 같은 맥락에서 제가 지금 분석하려는 로지스틱회귀분석에서도 범주형 변수 (더미변수)가 많아도 되는지요?
Existing replies
이일현 (2014-04-06 02:23:15)
1. 로지스틱 회귀분석도 회귀분석과 상당히 비슷하지만, 그 개념이 다르기 때문에 봐야되는 통계량은 서로 다릅니다.
일단, 로지스틱 회귀분석에서는 다중공선성은 없어야 하며, 종속변수의 독립성 가정은 존재합니다. 그러나 이상값이나 잔차 검정 등은 회귀분석과는 다른 방법으로 접근을 해야 합니다.
다중공선성은 선형회귀분석에서 독립변수들 넣고 VIF 를 보면 됩니다.
이상값은 표준화 잔차와 Cook 의 거리를 보면 됩니다.
잔차 검정 대산이 모형 적합도(Goodness-of-Fit test)로 보며, Hosmer-Lemeshow 검정을 가능합니다.
2. 상관이 없습니다. 선형회귀분석은 기본적으로 선형모형입니다. 그리고 우리가 흔히 알고 있는 t-test 나 ANOVA 역시 선형모형입니다. 따라서 다중회귀분석이라고 하는 것은 t-test, ANOVA, 선형회귀분석을 합쳐놓은 것이라고 할 수 있습니다. 다만, 이때에는 더미변수가 추가되는 것일 뿐입니다.
본 저서의 다음 페이지를 보시면 좀 더 쉽게 이해하실 수 있을 것입니다.
p.225. Tip –> 더미변수를 이용한 회귀분석과 t-검정 결과 비교
Legacy document_srl: 294868 / Legacy URL: http://www.statedu.com/QnA/294868
