• 검색
  • 검색상세

A Measuring Technique of Variable Impacts in Random Forest Regression using Shapley Value

Jae-hee Hur (Sookmyung Women's University)

  • pdf
초록  more
  The research of variable impact measuring technique is important due to the dimensionality reduction. When we deal with "small n large p problem" with multidimensional dataset, it is impossible to consider all the variables for the prediction. Variable impact leads to find a dominant variable whic ...
초록  
  최근 빅데이터를 이용한 데이터 마이닝 연구의 중요성이 증가함에 따라 고차원 속성의 데이터를 분석하는 연구의 필요성 또한 늘어나고 있는 추세이다. 데이터의 분류 및 예측을 수행하기 위해 모든 변수를 사용하는 것은 비효율적이다. 변수의 분류 영향력은 분류 및 예측에 실질적인 영향력을 끼치는 변수를 우선적으로 고려하는 방식으로 이를 해결하고자 한다. 이러한 변수의 분류 영향력을 측정하는 연구는 고차원 데이터에서 발생하는 차원의 저주 문제를 해결하는 데에 유용하다.
  본 연구는 랜덤 포레스트 기법에 경제학 이론의 Shapley Value를 접목시킴으로써 분류 영향력이 높은 변수를 찾아냈다. 이를 통해, 기존에 연구된 랜덤 포레스트 기반 변수 분류 영향력 측정 기법들과 비교하여 다중공선성 해결에 효과적인 방안을 제시하였다. 또한, 변수의 집합 단위로 영향을 계산하여 보다 정확하고 효율적인 분류를 수행할 수 있음을 이론과 실험을 통해 도출했다. 마지막으로, 제안한 방법을 통해 변수의 분류 영향력에 따른 우선순위를 제공하였다.
목차  more
1. Introduction = 1
2. Terminology = 6
2.1. Random Forest = 6
...
크리에이티브 커먼즈 라이선스
RIS 반출 REFWORKS 반출 Staff View 목록보기

상단바로가기