통계 Variability, Variable, 그리고 Variance 2018/07/12 16:27 by Lynn





심리 통계에 들어가기에 앞서..


헷갈리는 용어들을 정리해 보자. 
참고로 통계의 범위는 매우 넓으며 사용되는 학문의 범위마다 한국어로의 해석이 다를 수 있다. 
아래는 심리통계로써 한국어로 번역된 영어의 어원이라고 보면 좋을 것 같다. 
공대에서는 분산과 변량은 전혀 다른 것이고 실제 한국 말로도 둘의 뜻은 좀 다르다. 
어쨌든 원문을 읽을 때 variance가 어떤 의미인지에 대해 이해하고 가는 데 좋을 것 같다라는 생각이다. 


Variability(가변성) : 

Variability는 데이터셋의 범위(range)와 변량(variance), 표준편차(standard deviation)을 통해 설명할 수 있다. 범위는 측정되는 변수(variable)에 할당된 가장 큰 값과 작은 값 사이의 차이를 나타낸다. 
Variability는 Variable의 파생된 용어이다. Variability(가변성)은 가변적인 상태 또는 특성이라고 할 수 있고, variable은 가변적인 바로 '그 것'을 뜻한다. 


Within-treatment variability : 두개의 변인 차 외의 결과를 명확하게 하지 않는 혼입변수

우리는 실험설계를 할 때 모든 혼입변수를 고려하는 것이 아니라, '방법 A와 방법 B'의 차이를 봐야 할 것이다. 좀 더 일반적으로, '내가 보고자 하는 부분의 변화만을 실험에 담아야 한다.

설계, 혹은 Design, 방법론이 필요한 이유는 바로 이, Within-treatment variability를 최대한 통제하기 위해서이다. 

비근한 예로, 한 중학생의 영어 시험 성적에 영향을 끼치는 이유들을 살펴보면, 다양한 내용들이 있음을 볼 수 있다. 
어렸을 때 조기 유학을 다녀왔을 수도 있고, 오늘따라 듣기 방송이 클리어 했을 수도 있고, 오늘 학생의 컨디션이 좋았을 수도 있다. 그런데 연구자는 영어 시험 성적을 높이기 위해서 어떤 교수법이 좋을지를 연구하고자 한다. 
그렇다면 앞서서 말한 이 모든 것들은 With-treatment variability로써 연구에 영향을 줄 것이다. 


일단 이 의미를 생각한 다음에, 

Variable(변수 혹은 변인) : 

일상적으로도 많이 쓰이는 단어이다. "변수가 너무 많아서 시작하기 곤란한데-."
이 때 변수는 '가변적일 수 있다'는 뜻이고, 날씨가 변수가 된다는 말은 날씨가 가변적일 수 있다는 것을 뜻한다. 
variable을 또한 변인으로 번역하기도 하는데, 이 변화하는 것의 원인으로 지목된 것이라는 함의가 있다. 

어찌됐든 중요한 것은 변수 혹은 변인의 상대어는 '상수'이다. 변하지 않는 일정한 값을 가진 수라는 뜻이다. 



Variance(분산 혹은 변량) : 

분산은 얼마나 흩어져 있는가라는 뜻을 함의하고 있고, 변량은 그 양이 얼마나 변했는지에 대한 뜻이 있다. 
둘 다, 그 기준점이 있는데, 바로 그 기준점이 보고자 하는 기댓값이다. 

정의를 정확히 내리자면, 

"그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 가늠하는 수" 

라고 할 수 있다. 


그런데 분산보다는 분산의 제곱근인 표준편차가 더 많이 사용되는데, 그 이유는 다음 시간에 이야기 하도록 하자.
또 여기서 기댓값이란 무엇인가? 이것도 다음에 이야기 하도록 하자.ㅋㅋㅋ