[re] 회귀계수의 부호 변화와 최적변수의 선택

각 질문의 아래에 답글이 있습니다.

>통계분석하다가 이해가 안되는 점이 있어 문의 드립니다.
>
>첫째는 어떤 인자가 중회귀분석시에는 계수값이 -가 나왔는데 그 인자만으로 단순회귀 분석을 하니까 계수가 +가 나오네요. 즉 저는 중회귀 분석식을 보고 이 인자는 Y값과 반비례관계가 있구나 라고 생각했는데 그렇게 판단하는 것이  잘못된건가요?, 또 왜 이런 현상이 생기는 건가요.

Answer >
이런 현상이 일어날 수 있습니다. 가장 대표적인 경우는 다중공선성이 존재할 경우입니다. 다중공선성이 존재할 때는 특정한 변수를 포함시키거나, 뺄 경우에 다른 변수들의 회귀계수가 급하게 변하거나, 부호가 바뀌는 겨우가 가끔씩 나오고 있습니다.
이때에는 먼저 다중공선성(VIF) 검사를 하셔서 다중공선성에 문제가 있는가를 확인하시면 됩니다.

두번째는 중회귀분석과 단순회귀분석의 차이때문에 아주 드물게 나오는 경우입니다. 중회귀분석에서는 각 변수들 개개의 회귀계수를 추정하는 것이 아니라 다른 변수들과 같이 작용하여 회귀계수를 추정하여 회귀식을 만들게 됩니다. 이때 마치 GLM에서 교호작용이 있듯이 회귀분석에서도 이런 현상이 일어날 수 있다는 것이죠. 그러나 이런 경우는 아주 드문 경우입니다. 또 설사 이렇게 나왔다 하더라도 그 변수의 R^2 값이 낮게 나올 수 있을 것입니다.

먼저 위의 2가지 사항에 대해서 검토를 해보십시오. 만약 위의 2가지가 경우가 아니라면 데이터를 실제로 확인하면서 해봐야 알 수 있는 내용일 것입니다.

>둘째는 VITAL FEW를 구하기 위해 BEST SUBSET을 실시해서 인자 3개를 골랐읍니다. 고른 인자에 대해 각각 단순회귀 분석을 해서 각각의 인자에 대한 R2값을  구했는데 BEST SUBSET에서는 중요도가 하위에 있는 인자가 상위에 있는 인자보다 R2값이 높게 나오는 경우가 발생하네요. 다시말하면 제가 VITAL FEW라고 선정한 인자 3개보다 다른 인자가 R2값이 높게 나오는데 이런경우 VITAL FEW를 바꾸어야 하나요? 또 왜 이런현상이 발생하는지 궁금합니다.

Answer >
네. 저런 경우도 발생할 수 있습니다.

첫째 앞에서도 말씀드린 다중공선성의 문제가 있는 경우입니다. 다중공선성이 존재하면, 모형에 더 중요한 변수가 빠질수도 있습니다. 그러므로 반드시 다중공선성의 문제를 체크하셔야 합니다.

둘째, 변수선택 방법의 문제입니다. 보통 6시그마 컨설팅을 하는 곳에서는 중회귀분석의 경우에 Best Subset를 이용하여 중요변수를 선택하라고 교육을 하고 있습니다. 그러나, 이 방법이 그렇게 좋은 방법은 아닙니다. 왜냐하면, Best Subset에서 제공하는 통계량에서 가장 중시하는 R^2, Adj R^2 값이 절대적인 기준이 될 수 없다는 것입니다. 또한 부수적으로 보는 s, Cp 통계량 역시 마찬가지입니다. 그리고 Best  Subset에서는 주관적인 견해에 따라 모형이 전혀 틀려질 수도 있습니다. 그래서 제가 추천하는 중회귀분석의 순서는

                 1. 다중공선성 확인
                 2. StepWise
                 3. Best Subset

입니다. 즉, 먼저 다중공선성을 체크하여 다중공선성에 문제가 있는 변수들을 삭제한 다음, StepWise를 이용한 단계별 회귀 분석을 합니다. 그런 다음 이것의 결과와 Best Subset의 결과를 결합하여 변수들을 선택합니다.
경험적으로 보았을 때 100개의 모형이 있을 경우
    
              선택한 분석                                              모형의 정확도
      ————————————————————-
            StepWise                                                              80
            Best Subset                                                          50
            다중공선성 + StepWise                                            95
            다중공선성 + Best Subset                                        80
            다중공선성 + StepWise + Bset Subset                       99

로 생각됩니다. 물론 위의 내용은 어디까지나 저 혼자만의 견해임을 밝혀드립니다. 그러나, 위의 내용이 거의 맞는거 같네요.


Legacy document_srl: 11803 / Legacy URL: http://www.statedu.com/QnA/11803

Similar Posts