고객센터









customer center. 월~금 : 09:00~17:00, 상담가능시간 : 09~17시 (토요일,일요일,공휴일은 휴무입니다)

입금계좌안내. 우리은행, 예금주(에스에스에이씨스탯), 계좌번호(000-00-00000)


요청하신후 문자메세지를 보내
주시면 좀더 빨리 처리됩니다.
(010-3920-3596)

home 고객센터 > BLOG

공지사항. 우리회사의 새로운 정보와 다양한 소식을 전해 드립니다.

조회수 193
제목 모든 이상치는 증거이다
등록일 2023-04-08

 


 

 

 

일반적으로 분석 전에 이상값을 제거해야 한다고 알고있는 경우가 많다.
이는 현대 통계의 대부분이 데이터에 대한 수학적 모델 생성과 관련되기 때문이다.
이러한 모든 모델은 알고리즘을 사용하여 생성되기 때문에
비정상적이거나 극단적인 값에 의해 심각한 영향을 받는 경향이 있다.


따라서 이러한 수학적 기법을 사용하여 유용하고 적절한 모델을 얻으려면
종종 이상값을 제거하여 데이터를 다듬어야 한다.
그러나 모델을 구축하는 행위는 데이터가 모델 사용을 정당화할 만큼
충분히 동질적이라고 암시적으로 가정한다.

 

 


 


예를 들어 그림 1의 히스토그램에는 종 모양의 곡선이 중첩되어 있다.
이 곡선은 히스토그램의 모든 100개 값에 대한 평균 및 표준 편차 통계를 기반으로 한다.
데이터에 잘 맞도록 너비나 높이가 충분하지 않다.
그림 2의 히스토그램에는 7개의 극단값(4개는 최저값, 3개는 최고값)이 삭제된 후
남은 93개의 값이 포함되어 있다.
이제 평균 및 표준 편차 통계를 기반으로 하는 곡선이
데이터를 훨씬 더 잘 맞추는 작업을 수행한다.
따라서 이상치가 데이터에 대한 모델을 만들려는 노력을 약화시킬 수 있다는 것은 사실이다.

 

 


 


그러나 우리가 가정한 모델과 수정된 데이터 세트 사이에 더 나은 적합성을 얻기 위해
단순히 삭제한 7개의 값은 어떤 의미가 있을까?
모델과 데이터 간의 더 나은 적합성을 얻기 위해 이상값을 삭제하는 전체 작업은
데이터가 동질적이라고 암시적으로 가정하는 계산을 기반으로 한다.
이상값이 있는 경우 이 가정이 의심스러워진다.


그림 3의 X 차트는 기본 프로세스의 6가지 혼란 또는 변화에 대한 명확한 증거를 보여준다.
그림 1의 7개 "이상치"는 이러한 신호의 일부이다.
그림 2에서 무시한 이상값은 값이 동질적이지 않고
그림 1과 2 모두 에 맞는 모델이 잘못되었다는 신호이다.
데이터 분석의 관점에서 이상값은 데이터 세트에서 가장 중요한 값이다.
우리는 이러한 가치를 무시하기보다는 이해해야 한다.
모델부터 찾는 것은 시기상조라는 의미이다.

 

 


 


"이 데이터는 동질적입니까?" 모든 분석의 첫 번째 질문이어야 한다.
관리도는 이 문제를 해결하는 가장 쉬운 방법을 제공한다.
따라서 합리적인 방식으로 데이터를 구성하고 관리도에 배치하여
시작하지 않는 모든 분석은 본질적으로 결함이 있다.


Donald J. Wheeler 글