[re] 이상치(outlier)제거 관련 질문입니다.

지금과 같이 1 표본일 경우에는 사실 마땅한 근거는 없습니다.
지금과 같은 경우에 가장 좋은 방법은 평균보다는 중위수입니다. 중위수는 비교적 이상값에 영향을 적게 받으므로 좋은 방법이라고 할 수 있습니다.
그러나, 반드시 평균을 구해야 한다면, 이 정도 값이라면 근거 없이 제거를 해도 사실 상관은 없습니다.
또 한가지 방법으로는 표준화를 시켜서 표준화 값의 절대값이 3.0 이상으로 나오면 이상값으로 판정하기도 합니다.

>통계적 조언에 늘 감사드리고 있습니다~
>
>오늘 드릴 질문은,
>
>105%, 130%, 170%, 110%, 125%, 140%, 160%, 20000%
>
>8개 업체의 부채비율(에 대한 평균을 구해야하는데, 이상치(20000%)가 있어서 제거를 하려합니다.
>
>헌데 연구자 임의로 제거하는게 아닌, 통계적인 근거(수치)가 필요한데 도무지 찾을 수가
>
>없네요.. 어떤 분석방법 또는 이론적 근거로 대처해야 할까요??
>
>답변 부탁드립니다~
>
>


Legacy document_srl: 80931 / Legacy URL: http://www.statedu.com/QnA/80931

Similar Posts

  • 비정규분포와 box-cox

    안녕하세요 미니텝 배운지 15일된 초입니다 답변 부탁드려요 공정 능력 분석시 데이터를 개별 분포 식별 후 p값이 제일 큰 비정규 분포도를 선택하여 돌리는걸로 알고 있습니다 근데, 여기서 이방법 말고 비정규 데이터를 box-cox를 이용 하더군요 제 질문은 왜 p값이 높은 비정규분포로 분석 하면 될것을 구지 정규분포로 변환하여 해석하냐는 얘기입니다 반드시 결과에 대한 해석값이 달라지기 때문일거 같은데요 간단이 말해 공정능력 분석

  • 참고문헌 그리고 연구대상자 표본 크기 ( g power )

    사회과학분야 변인들의 매개변인이 있는 상관 과 선형 회귀분석 을 하려고 하는데요. 단일 편의 표집입니다. 실험설계 아닙니다. 독립변인(하위 4개) – 매개변인(하위 3개)-종속변인(하위2개) 그리고, 각 변인들은 4점리커트 척도로 응답을 받습니다. 이 연구를 함에 있어서 IRB 상에 연구대상자(N) 예측 근거를 제시하라고 해서요. 이 연구의 통계는 SPSS를 이용해서 상관 과 회귀분석까지 하려고 합니다. SPSS에서 분석-회귀

  • [re] 대응표본 T검정

    지금 질문하신 내용으로 봐서는 이것은 대응표본 T 검정(Paired T-test) 보다는 독립표본 T 검정(Independnet T-test)로 해야겠네요. 그리고, 맨 아래에 집단이 1,2 만 나와야 하는데, 1,2,3 의 3개 집단이 나온 이유는 코딩시에 잘못 입력을 했기 때문입니다. 그러므로, 잘 살펴보시면 집단에서 3 이라고 입력되어 있는 것이 있을 것입니다. 그것을 제대로 바꿔주시면 됩니다. … 언제나 최선을 다하

  • 다연상관계수(polyserial correlation) 관련하여 질문드립니다.

    안녕하세요 교수님 😀 다연상관계수를 산출하는 과정에서 궁금한 것이 생겨 질문드립니다. 다연상관계수를 산출할 때 SPSS에서 “확장” 메뉴를 통해 “Heterogenous Correlation”를 추가하고 “이질적 상관관계”를 사용했습니다. 다만 이 경우 표준 오차를 제외하고 유의 확률을 확인할 수 없었는데 혹시 다연상관계수 산출 시 유의 확률은 계산할 수 없는 것일까요? 질문 읽어주셔서 감사드립니다 🙂

  • 더미변수로 만드는 방법을 가르쳐 주세요

    유전자 변수의 값이 A, B, C 일 때 A 는 D1=0, D2=0 B 는 D1=1, D2=0 C 는 D1=0, D2=1 와 같이 더미변수로 만든다고 할 때 (명목척도로 측정한 것을 0 과 1 로 구분하는 이분법적 변수로 전환시킨다는) 실제 방법을 모르겠습니다. ‘변수계산’ 혹은 ‘리코딩’을 이용하면서 조건을 주어 한다는데… 실제로 어떻게 해야하나요? ‘변수계산’의 경우 ‘대상변수’, ‘숫자표현식’, 그리고 ‘조건’에 어떤

  • 통제변수에 대해 질문 드립니다.

    사회학에서의 통계수업에서 일반적인 회귀 모형을 다루는 것을 배웠는데요, 많은 예시에서 ‘연령, 성별’ 등의 통제변수가 반드시 들어가야 하며, 이것이 중요하다는 이야기를 들었습니다. 저는 주로 지역들을 대상으로 통계분석을 해서 분석단위가 읍면동 혹은 시군구입니다. 지역의 인구, 사업체수, 성비 등 지역의 속성정보를 이용하는데요. 이 ‘통제 변수’, ‘변수를 통제한다’는 의미가 명확히 이해가 되지 않습니다. 변수를 통제하는 정확한