로지스틱 회귀분석 관련하여 몇 가지 질문드리고 싶습니다.

통계는 교양정도 들은 초짜인데 레포트 쓰다가 어쩌다보니 제 역량에 안 맞는 수준에 이르러서 허덕이고 있습니다. 책 등으로 노력을 했으나 잘 안 되네요. 도와주시면 정말 감사하겠습니다.

Variables in the Equation
                                           B    S.E.    Wald    df    Sig.    Exp(B)

————————————————————————————
    농업임업어업(1)          .553    .655    .711    1    .399    1.738
    판매영업서비스직(1)    .887    .478    3.445    1    .063    2.428
    생산기능노무직(1)     -1.250    .577    4.695    1    .030    .286
    사무기술전문직(1)        .134    .382    .123    1    .726    1.144
    경상도유권자(1)         1.302    .414    9.910    1    .002    3.676
    전라도유권자(1)         -1.674    .454    13.618    1    .000    .187
    충청도유권자(1)           .160    .462    .120    1    .729    1.174
    성별(1)                          -.329    .304    1.170    1    .279    .720
    나이                                .011    .014    .613    1    .434    1.011
    소득수준                       -.125    .065    3.638    1    .056    .883
    이념성향                        .239    .075    10.123    1    .001    1.270
    객관적조건                  -.669    .282    5.618    1    .018    .512
    노무현정권총평가         -.619    .221    7.807    1    .005    .539
    교육수준보완                .084    .051    2.713    1    .100    1.087
    유리한쟁점에영향(1)       .968    .472    4.214    1    .040    2.634
    불리한쟁점에영향(1)      -1.048    .389    7.245    1    .007    .351
    Constant                     -1.802    1.264    2.031    1    .154    .165
a    Variable(s) entered on step 1: 농업임업어업, 판매영업서비스직, 생산기능노무직, 사무기술전문직,
경상도유권자, 전라도유권자, 충청도유권자, 성별, 나이, 소득수준, 이념성향, 객관적조건, 노무현정권총평가, 교육수준보완,
유리한쟁점에영향, 불리한쟁점에영향.


Omnibus Tests of Model Coefficients
                      Chi-square    df    Sig.
Step 1    Step    198.971    16    .000
  Block              198.971    16    .000
  Model             198.971    16    .000         

일단 제 목표는 소득, 교육수준, 이념성향, 연령, 성별, 지역과 같은 인구사회경제적 요소와는
별개로 직업계층적 요소가 투표행태에 영향을 미친다는 것을 입증하고 싶습니다.(혹은 이런 요소들로 이루어진다는 결론도 되지만 현재는
자료가 그렇게 나오는 듯해서요…) 그래서 1200개 표본의 설문조사 중 유효한 434개를 가지고 위 회귀식을
만들어보았는데요, 전체 표본중 투표자 표본만 또 그중에서도 정동영, 이명박을 찍은 표본만 추려내서 저렇게 되었고 따라서 종속변수가
정동영 대비 이명박을 찍을 확률이 되게 하고자 하였습니다. 직업계층은 저 위의 4개를 제외한 자영업자를 기준으로 가변수화한
것이고, 지역 또한 나머지 지역 기준으로 저 세 지역을 가변수화한 것입니다. 그리고 성별과, 무관한 쟁점 대비 유리한, 불리한
쟁점에 영향을 받았다는 설문을 바탕으로 그 변수까지 만든 뒤 나머지 변수는 실제 나이, 10척도로 나눈 소득, 11척도로 나눈
이념성향, 4척도로 나눈 과거정권 상황평가 및 객관적 조건 파악, 3척도로 나눠진 자료에 적당히 연도를 곱해서 만든 교육수준이
제가 가공한 대로의 위 식입니다.

이제 몇 가지 여쭙고 싶은데요,

1. 위 상황에서 생산기능노무직의 exp(B)를 보고, 소득, 교육수준, 이념성향, 연령, 성별, 지역, 쟁점을 다 통제하고도 자영업자에 비해 생산기능노무직이라면 이명박을 정동영에 비해 찍을 확률이 28.6%밖에 안 된다고 해석해도 되나요?

즉,
다른 변인들이 통제된 것이라고 봐도 되나요? 애초에 이 목적으로 회귀분석을(도서관에서 빌린 교재에 그런식으로 해석이
되어있길래…)한 것인데, 인터넷 자료 등에 보면, 변인을 통제하려면 block을 이용해야 된다는 식으로 나와있더라구요. (근데
계층 뺴고 다 1block에 넣어봐고 계층을 2block에 결과는 비슷비슷하기는 하던데요..) 혼돈에 빠진 저에게 길을
제시해주세요 ㅜㅜ

2. 만약 통제가 된다고 본다면, 통계적으로 유의하지 않은 변인들도 (가령 성별, 나이) 통제되었다고 봐도 되나요?



3. 모델 산출 방식을 forward LR이나 backward conditional 등등으로 하면, 몇몇 변인들은 모델에 포함되지 않던데 그렇다면 p-value는 높아져도 제가 바라는대로의 변인통제가 안 되는 상황인 거 맞죠? (가령, 서비스직과 노무직 빼고는 다 모델에 포함되지 않는다면, 5계층을 비교하는 건지 알 수 없는..)

4. 어쩌다보니 재밌기도 해서, 설문지에 있는 대부분의 내용을 변수화시켜봤는데 이거 말고도 6~7개 정도 유의한 독립변인이 있던데요.. 그 변인을 넣어도 되나요? 독립변수가 너무 많은 것 같기도 해서요…

5.
예를 들어서, 계층에 있어서 기준그룹에 따라서 각 차이가 유의한지가 결정되던데요 5개 그룹이니까 총 10가지의 관계가 있을 건데
이를 각각 대입한 모델을 제시하면서 5개 계층 간의 (유의한) 차이를 보이는 방식이 성립할 수 있나요?

6.
제일 궁금한 것인데요….. 가령 두 상관관계에 대해서 그것이 허위상관이고 제가 그 변인을 찾아서 모델에 넣어보는 식으로
해보니까 원래 독립변인이었던 것이 유의수준이 없어지던데요….. 그렇다면 제가 어떤 변인 그룹을 추가로 넣었을 때, 계층간의
유의한 차이가 사라진다면, 그 변인 그룹이 계층 분화를 일으키는 것과 어떤 연관성이 있다고 주장해도 되나요? 가령 언론신뢰도
항목을 넣었는데 계층간의 유의한 차이가 싹 사라진다던지하면요..

7. 마지막으로 ㅜㅜㅜ 가변수를
이용하는 경우에 그 가변수와 다른 변수가 상호작용을 일으키는지 검증하는 과정이 어떤 책의 다중회귀분석 관련 자료에 있던데요 그
과정을 다 거쳐야하나요? 처음에는 걱정했는데 VIF값 같은 것 구해보니 다 2 미만이고 이래서 별 문제가 없겠다 생각이 들기도
하거든요…

지금 정말 갖가지 의문들로 혼돈스러운데요 ㅜㅜㅜㅜ

고수님들께서 저에게 빛을 내려주시면 정말 감사하겠습니다.

읽어주셔서 감사합니다.



Existing replies


이일현 (2011-11-30 15:36:02)

1. 예. 다만 해석이 Exp(B) 는 OR 이기 때문에. 28.6% 가 아니라 .286배 라는 뜻입니다.  MB에 비해 DY 을 찍을 가능성이 .286 배 라는 말이죠. 거꾸로 말하면 DY 에 비해 MB 를 찍을 가능성이 3.5배(1/0.286 = 3.5) 높다는 것입니다.

 

2.3.4. 예.

 

5. 기준값하고만 비교가능합니다. 따라서 기분값 선택을 잘 해주어야 합니다. 물론 기준값을 바꿔서 각각 분석을 해 볼 수는 있겠죠.

 

6. 단순히 p-value 가 유의했는데, 또 다른 변수를 투입했는데 기존 변수가 유의하지 않았다고 해서 허위변수라고 할 수는 없습니다.

일반적으로 새로운 변수가 투입되면 기존 변수의 p-value 는 커지는 경향이 있기 때문이죠.

 

7. 로지스틱 회귀분석에서는 더미변수를 직접 만들어서 사용하지 않아도 됩니다. SPSS 에서 입력한 다음, 범주형 공변량이라는 옵션에서 체크를 해주면 자동으로 더미변수를 만들어 분석을 하게 됩니다.


Legacy document_srl: 102855 / Legacy URL: http://www.statedu.com/QnA/102855

Similar Posts