상관계수, 결정계수와 OR
안녕하세요 교수님!
재심사 평가를 받은 논문을 수정하면서 간단한 질문 사항 몇가지가 있어 질문드립니다.
1. 제가 주요변수 간 상관관계를 분석하여 결과로 제시하려고 하는데요, 연속형 변수(사회자본)와 범주형 변수(종사상지위) 간에 상관계수를 구할 수 있나요? 제가 spss를 사용하는데, 혹시 spss로 연속형과 범주형 변수의 상관계수를 구할 수 있는 방법이 있을까요?
2. 결정계수(R2)가 0.04정도로 작게 나왔는데, 이 이유를 설명할 방법을 찾지 못하겠어서요.. 모형이 의미가 있는데도, 결정계수가 작게 나타날 수 있는 이유가 무엇이 있을까요?
3.OR(odds ratio)가 1.01~1.06의 수준으로 임상적 기준으로 아주 작은 이펙트 사이즈라는 지적을 받았는데요, 2번 질문과 유사하게 변수가 영향력이 충분히 있는데도, odds ratio가 낮게 나타날 수 있는 이유가 어떤 것이 있을지 궁금하고 아니면, 1.01~1.06 수준이 작은 편이 아니라는 주장 또는 근거가 혹시 있을지 궁금합니다!!
항상 감사합니다. 교수님^^
Existing replies
이일현 (2024-04-09 11:42:17)
1. 이분형 변수이면 biserial correlation, 3수준 이상의 범주이면 polyserial correlation 으로 분석합니다.
SPSS 에서는 지원하지 않습니다.
다만 “확장” 메뉴을 이용해서 “Heterogenous Correlation” 를 추가하면 “이질적 상관관계” 가 상관분석 추가됩니다.
이곳에서 하면 됩니다.
SPSS 26 이상은 “확장 –> 확장허브” 에서 추가할 수 있습니다.
2. 모형이 유의한 것과 결정계수는 다른 개념입니다.
종속변수에 유의한 영향을 주는 원인(독립변수)는 수백 수천 가지가 있을 수 있습니다.
그 수백 수천 가지의 모든 독립변수를 구할 수 있고 그것으로 분석을 한다면 결정계수는 1.0(100%) 이 나오겠죠.
하지만 실제 연구자가 분석하는 것은 소수의 독립변수입니다.
이 소수의 독립변수가 종속변수를 얼마나 설명하느냐?
즉 전체 100%에서 얼마만큼의 비중을 차지하느냐 입니다.
그러므로 유의하다고 해서 반드시 결정계수가 높게 나오는 것은 아닙니다.
예를 들어 “암 진단여부”를 종속변수로 하는 경우를 생각해 보겠습니다.
그럼 암에 영향을 주는 원인 많겠죠.
그 중에 “식생활 습관” 하나만 고려해 보죠.
음식을 “싱겁게”, “짜게” 먹는 경우를 생각해 보면, 이 식습관이 암에 영향을 줄 것입니다.
그런데 그 영향력이 20%, 30% 로 크게 나올까요?
아마도 1% 정도도 나오지 않을 것입니다.
즉 해당 종속변수와 독립변수 간에 실제적인 영향력이 어느 정도일지를 생각해야 합니다.
3. 독립변수가 연속형 변수인지 범주형 변수인지 확인해야 합니다.
범주형 변수인 경우에 이와 같이 나왔다면 작은 효과입니다.
유의성도 그렇게 잘 나오지 않을 가능성이 높습니다.
하지만 연속형 변수인 경우라면 달라집니다.
연속형 독립변수에서 OR 은 독립변수가 1 커졌을 때 OR 값입니다.
예를 들어 독립변수가 나이라면 “나이가 1살 증가하면 OR 이 1.06배이다” 라는 것입니다.
이때 나이 1살의 의미가 임상적으로 의미가 있는지를 파악해야 합니다.
또 Cholesterol 이라고 생각해 보면 “콜레스테롤이 1 증가하면 OR 1.06배이다” 라는 것입니다.
이렇게 연속형 변수의 OR 은 측정한 독립변수의 단위입니다.
따라서 해석을 할 때는 단순히 독립변수가 1 증가할 때가 아니라 임상적으로 의미있는 단위를 생각해야 합니다.
예를 들어 “연령이 10살 증가하면, 콜레스테롤이 50 증가하면” 과 같은 것이죠.
위와 같은 경우에는 단위에 맞게 OR 를 계산해줘야 합니다.
Legacy document_srl: 299988 / Legacy URL: http://www.statedu.com/QnA/299988
