[Python] 다중공선성(Multicollinearity) 의미, 변수 제거 이유
데이터 분석을 하다보면, 회귀에서 나오는 개념 중 하나인 다중공선성 단순히 다중공선성을 없애야 된다고만 알고 있었는데, 사실 많은 의미를 담고 있는 '다중공선성'에 대해 알아보았다. 다중공선성 먼저 다중공선성이란, 회귀 분석에서 사용된 모델의 일부 변수가 다른 변수와 상관 정도가 높아, 데이터 분석에 부정적인 영향을 주는 것을 말한다. 그럼, 여기서 데이터 분석에 주는 부정적인 영향이란 무엇일까? 회귀분석 우선, 회귀분석이 무엇인지 알아야하는데 단순선형회귀 : Y = aX 다중선형회귀 : Y = aX1 + bX2 + cX3 + ... + zXn 회귀는 이처럼 하나의 독립변수 또는 여러 독립변수로 종속 변수를 예측하는 것을 말한다. 여기서 a, b, c 와 같은 알파벳은 추정량을 의미하며, X1, X2는 ..
2022. 12. 7.