회귀분석에서의 과적합(Overfitting)문제 대응방안…
약 50건의 설문조사/시장조사 자료를 기준으로 회귀분석 모형을 만들었는데 Test data에서 오차율이 Train data에 비해 현저히 높아지고 있습니다. (사용한 툴은 sas, spss)
샘플링은 층화추출을 했고 모델에는 보통 30-40개 정도의 변수가 단계적선택법(step)에 의해 채택되었습니다. 모형에 사용된 그리고 채택된 변수간의 다중공선성이나 잔차 분석 시 이상은 없었습니다. 이상값의 영향도….
제가 궁금한 점은
1. 표본 수가 적을 때 현재와 같이 Train/Validation/Test데이터를 구분하지 않고 리샘플링 방법을 사용하여 오차율을 적정하게 평가하는 방법이 있는 것으로 알고 있습니다만 그런 방법을 통해서 적정한 회귀모델을 산출할 수 있는 방법은 무엇인지 궁금합니다. 예를들어 여러개의 subset을 두어 모델과 테스트를 반복적으로 한후 각각의 모델을 조합할 수 있는 방법은 없나요?
2. 현재처럼 r2를 기준으로 stepwise로 변수를 선택할 경우 상대적으로 많은 변수가 선택되는데 이로 인한 과적합을 막을 수 있는 방법은 무엇인가요? 변수에 대한 사전 분석이나 유의수준 등을 조정해서 변수 개수를 줄이는 방법 외에 변수 선택 기준을 통해서 이런 문제를 감소시킬 수 는 없는지요 (r2 대신 적절한 기준은?)
다소 질문이 장황해졌습니다. 감사합니다.
Legacy document_srl: 81057 / Legacy URL: http://www.statedu.com/QnA/81057
