로지스틱 회귀분석에 대해 질문드립니다

좋은 책 정말 감사드립니다. 여기저기 통계 책들을 들여다보며 뜬구름 잡듯 했던 회귀분석에 대한 개념이 이 책 덕분에 실질적으로 명확해진 것 같습니다.

그런데 제가 지금 분석하려는 종속변수는 이분형 변수 라서 로지스틱 회귀분석을 사용해야 할 것 같은데요…이 책에는 로지스틱 회귀분석에 대한 내용은 매우 적어서…여기를 통해 질문드립니다.

1. 앞서 다중회귀분석에서는 다중공선성, 자기상관, 이상값, 잔차 검정 등을 일목요연하게 짚어주신 바 있습니다. 그렇다면 로지스틱 회귀분석에서도 이러한 내용들이 검토되어야 하는 건가요? SPSS에서 실제로 돌려봤는데 그런 항목, 예를 들면 VIF, Durbin-Watson, ZRE, SDF 등등에 대한 항목 자체가 아예 없더라구요. 로지스틱 회귀분석에서는 이러한 항목들을 무시하고 그냥 분석해도 되는지요?

2. 제가 지금 분석하려고 하는 연구에 이분형 독립변수가 많습니다. 선형회귀분석에서는 이러한 이분형 변수, 즉 더미변수들이 그래프의 기울기를 변화시키는 게 아니라 y 절편 값을 변화시키는 거라고 설명해주셨습니다. 책을 읽다보니  독립변수에 범주변수가 너무 많다면 선형 혹은 다중회귀분석의 본질적인 무언가가 훼손될 거 같다는 느낌이 들었는데요. 선형 혹은 다중회귀분석에서 범주형 변수 (더미변수)가 많아도 되는지요? 같은 맥락에서 제가 지금 분석하려는 로지스틱회귀분석에서도 범주형 변수 (더미변수)가 많아도 되는지요?

 

Existing replies


이일현 (2014-04-06 02:23:15)

1. 로지스틱 회귀분석도 회귀분석과 상당히 비슷하지만, 그 개념이 다르기 때문에 봐야되는 통계량은 서로 다릅니다.

일단, 로지스틱 회귀분석에서는 다중공선성은 없어야 하며, 종속변수의 독립성 가정은 존재합니다. 그러나 이상값이나 잔차 검정 등은 회귀분석과는 다른 방법으로 접근을 해야 합니다.

다중공선성은 선형회귀분석에서 독립변수들 넣고 VIF 를 보면 됩니다.

이상값은 표준화 잔차와 Cook 의 거리를 보면 됩니다.

잔차 검정 대산이 모형 적합도(Goodness-of-Fit test)로 보며, Hosmer-Lemeshow 검정을 가능합니다.

2. 상관이 없습니다. 선형회귀분석은 기본적으로 선형모형입니다. 그리고 우리가 흔히 알고 있는 t-test 나 ANOVA 역시 선형모형입니다. 따라서 다중회귀분석이라고 하는 것은 t-test, ANOVA, 선형회귀분석을 합쳐놓은 것이라고 할 수 있습니다. 다만, 이때에는 더미변수가 추가되는 것일 뿐입니다.

본 저서의 다음 페이지를 보시면 좀 더 쉽게 이해하실 수 있을 것입니다.

p.225. Tip –> 더미변수를 이용한 회귀분석과 t-검정 결과 비교


Legacy document_srl: 294868 / Legacy URL: http://www.statedu.com/QnA/294868

Similar Posts

  • [re] 다중회귀와 조절회귀분석 해석

    1번 문제는 일반적인 현상이 아닌 특수한 현상이기 때문에 뭐라 말씀드리기가 그렇네요. 실제로 회귀분석을 하게 되면 이런 현상이 나오게 됩니다. 물론 그 반대의 경우도 나오죠.(예를 들어 5개의 독립변수가 있는데, 이 변수들을 각각 회귀분석을 했는데, 5개 모두 유의하게 나와서, 전체를 한꺼번에 다중회귀로 했더니, 모두 유의하지 않게 나올 수도 있는 것이죠.) 단순회귀와 다중회귀는 서로 다른 분석기법입니다. 단순회귀는 단순히 그

  • [re] 이상값에 대한 처리 문제

    이상치는 전체에서 3-5개 정도라고 생각하면 됩니다. 그리고, 특별히 상관분석 등을 할 필요는 없습니다. 이상값 판정은 여러가지 방법이 있습니다. 그중에 하나는 분석기법에서 통계량(표준화잔차, DFITS 값 등)을 이용하는 방법도 있습니다. 비모수 검정에서 반복측정 분석을 할 수 있는 방법은 아직 개발되어 있지 않습니다. … 언제나 최선을 다하는 StatEdu가 되길 빌며 … >네 잘 읽었습니다. > >궁금한 것이 하나

  • 2단계 군집분석 질문입니다..

    안녕하세요? 통계가 너무 부족해서.. 기초적인 질문이지만 용기내어 올립니다 ;_; 여러 논문들을 보니까 군집분석을 할 때 계층적 군집분석을 하고 k-평균 방법을 쓰더라구요. 이 경우 계층적 군집분석에서 덴드로그램을 보고 연구자가 군집 수를 정하는 거기 때문에 다소 주관적인 걸로 알고 있습니다. 그런데 다른 논문들을 보니까 첫번째 단계에서 Ward의 방법(최소분산방법)을 사용해서 최적 군집의 수를 정하고 K-평균 군집분석을 실시

  • 관리도 sixpack capability indicies

    안녕하십니까? ㅋ 산업시스템공학을 전공으로 하는 대학생입니다. 통계학을 배우면서.. 관리도에 대해서 배우고 있는데. 관리도중… 미니텝에서 sixpack을 하면 capability indices테이블이 나오고 거기에 st와 lt 에대한 값들이 나오지 않습니까? 이걸 직접 구하는 방법이 알고 싶거든요… mean값과 stdev값만 주어지면 나머지 들은 다구할수 있는건가요? 구할수 있다면 각각의 공식은 어떻게 되는 건가요? 표

  • [re] ancova

    말씀하신 내용을 보니 사전 검사 결과를 공변량, 사후 검사 결과를 종속변수로 놓고 ANCOVA를 하신거 같은데요. 이때 분석 결과중에 Covariate라고 하는 공변량의 p 값이 0.05보다 작아서 유의하게 나왔다는 말씀이죠. 이것은 사전 검사 결과가 집단간에 차이가 있다는 것이 아니라, 사전 검사 결과가 사후 검사 결과에 영향을 준다는 것을 의미하는 것입니다. 마치, 사전-사후간 상관분석을 했더니, 상관관계가 있다라고 나온

  • spss에 대한 유의성평가에 도움좀 부탁드려요

    안녕하세요 저는 SPSS에 대한 굼궁한 사항이 있어서 인터넷 매체를 통해 사이트를 알게 되어서요. 문의 사항이 있어서 질문을 드리게 되었습니다. 저같은 경우에는요 SPSS를 사용하여서요 사후분석을 통해서 유의성을 평가하는데요 논문에 게재하기 위해 본 학회 안에서는 유의성 평가 데이터를 a, b, ab,등으로 표기를 하였더라구요. 제가 통계쪽은 너무 약해서 이렇게 도움을 청하게 되었습니다. 아래에 보시는 것이 제가 쓰는 통계 방