통계 분석 방법
회귀분석
종속변수와 하나 이상의 독립변수(설명변수) 사이의 관계를 모델링하고 예측 통계적 기법
주로, 연속형 종속 변수(ex. 온도, 시간, 판매량 등)를 다루고 독립 변수들과의 선형관계를 추정하는 데 중점을 둠.
선형 회귀 분석
- 독립변수의 값에 따라 종속 변수의 평균 값을 예측하는 것이 목표인 회귀분석, 예측된 값과 실제 값 사이의 차이를 최소화하는 회귀선을 찾는 것이 중요.
-회귀선: 독립변수와 종속변수 사이의 관계를 직선형태로 가정한 것
- 하나 혹은 둘 이상의 독립변수를 다루는 것에 따라 분류
단순 선형회귀: 가장 기본적인 형태로 하나의 독립변수와 한 개의 종속변수 사이의 선형 관계를 찾아내는 것이 목표
다중 선형회귀: 둘 이상의 독립변수 간의 관계를 모델링
로지스틱 회귀 분석
- 종속변수가 이향형(둘 중 하나) 또는 다향형(여러 범주)인 경우에 사용되는 분석 기법
-선형회귀와는 달리, 로지스틱 함수(시그모이드 함수)를 활용해 확률을 예측하는데, 로지스틱 함수를 통해 0과 1사이의 값을 가지는 예측값을 확률로 변환해 이향형 종속 변수의 두 범주 중 어느 쪽에 속할 확률을 추정.
-주로 분류 모델에 사용
분산분석(ANOVA)
- 그룹 간의 평균 차이를 비교하기 위한 통계적 기법, 그룹 간의 차이가 전체 변동성에 대해 얼마나 큰지를 검정하여 평균 값의 차이가 통계적으로 유의미한지를 검정하는 데 사용.
- 검정: 통계학 기법을 사용하여 데이터로부터 얻은 결과가 우연에 의한 것인지, 통계적으로 유의미한 것인지를 판단하는 가설 검증 과정
- 주로 범주형 종속 변수와 연속형 독립 변수를 사용한 실험적인 데이터를 분석하는 데 쓰임.