통계 기초 통계 용어 정리 2018/07/19 15:13 by Lynn




위키피디아에 꽤나 잘 정리되어 있다 싶어 조금만 수정 후 대부분 그대로 가지고 왔다.


오늘은 그냥 머리에 개념만 쏙쏙 집어 넣자!

그래도 읽어도 모르겠다고 하면, 앞으로 작성될 많은 포스팅을 살펴보면 좋을 것이다!


하나 팁을 주자면, 조사대상이 되는 Parameter의 값 앞에는 전형적으로 '어미 모'자를 써서 표기한다.
  • 모집단(population) : 관측 대상이 되는 전체 집단이다. 조사의 대상이 되는 자료 전체. 
  • 표본(sample) : 모 집단에서 일부만 조사한 것. 모집단에서 추출된 자료의 집합. 
  • 대푯값(representative value) : 어떤 데이터를 대표하는 값. 평균(mean), 중앙값(median), 최빈값(mode)이 있다. 
  • 기댓값(expected value) : 통계에서는 평균값이다. 가능한 값마다 확률을 곱해서 모두 더한 값이다. 
  • 산포도(degree of scattering) : 자료(data)가 흩어져 있는 정도. 범위(range), 분산(variance), 표준편차(standard deviation)이 있다. 
  • 표준 편차(standard deviation) : 분산을 제곱근 한 값. 간단하게 제곱했다가 다시 제곱근 하여 값을 만드는데 굳이 이렇게 하는 이유는 음수를 양수로 바꿔주기 위해서이다. (나중에 다시 한번 다루겠다.)
  • 절대 편차(absolute deviation) : 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것. 
  • 범위(range) : 가장 큰 측정값에서 가장 작은 측정값을 뺀 값. 

  • 모평균(population mean) : 모집단의 평균은 μ로 표시한다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률변수의 기댓값이다. 
  • 표본 평균(sample mean) : 표본의 평균은 {\displaystyle {\bar {X}}}로 표시한다. 모두 더한 후 n으로 나눈다. 
  • 모분산(population variation) : 모집단의 분산은 σ2 로 표시한다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다. 
  • 표본 분산(sample variation) : 표본의 분산은 s2로 표시한다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다. (왜 n-1로 나누는지는 나중에 다시 다루겠다.)
  • 모 표준 편차(population standard deviation) : σ으로 표시하고, 모분산에 제곱근을 씌워서 구한다. 
  • 표본 표준 편차 (sample standard deviation) : s로 표시하고, 표본 분산에 제곱근을 씌어서 구한다. 

  • 전수조사 : 조사의 대상이 되는 자료 전체를 빠짐없이 조사하는 것. 
  • 표본조사 : 조사의 대상이 되는 자료의 일부만을 택하여 조사하여 전체를 추론하는 것. 
  • 측정수준 : 양적자료, 질적 자료 등. 측정수준에 따라 통계에 이용해야 할 요약 통계량이나 통계 검정법이 다르다. 이 척도에 대해서는 나중에 따로 다루도록 하겠다.  
* 위 내용은 위키피디아의 내용을 바탕으로 했습니다!


통계 Variability, Variable, 그리고 Variance 2018/07/12 16:27 by Lynn





심리 통계에 들어가기에 앞서..


헷갈리는 용어들을 정리해 보자. 
참고로 통계의 범위는 매우 넓으며 사용되는 학문의 범위마다 한국어로의 해석이 다를 수 있다. 
아래는 심리통계로써 한국어로 번역된 영어의 어원이라고 보면 좋을 것 같다. 
공대에서는 분산과 변량은 전혀 다른 것이고 실제 한국 말로도 둘의 뜻은 좀 다르다. 
어쨌든 원문을 읽을 때 variance가 어떤 의미인지에 대해 이해하고 가는 데 좋을 것 같다라는 생각이다. 


Variability(가변성) : 

Variability는 데이터셋의 범위(range)와 변량(variance), 표준편차(standard deviation)을 통해 설명할 수 있다. 범위는 측정되는 변수(variable)에 할당된 가장 큰 값과 작은 값 사이의 차이를 나타낸다. 
Variability는 Variable의 파생된 용어이다. Variability(가변성)은 가변적인 상태 또는 특성이라고 할 수 있고, variable은 가변적인 바로 '그 것'을 뜻한다. 


Within-treatment variability : 두개의 변인 차 외의 결과를 명확하게 하지 않는 혼입변수

우리는 실험설계를 할 때 모든 혼입변수를 고려하는 것이 아니라, '방법 A와 방법 B'의 차이를 봐야 할 것이다. 좀 더 일반적으로, '내가 보고자 하는 부분의 변화만을 실험에 담아야 한다.

설계, 혹은 Design, 방법론이 필요한 이유는 바로 이, Within-treatment variability를 최대한 통제하기 위해서이다. 

비근한 예로, 한 중학생의 영어 시험 성적에 영향을 끼치는 이유들을 살펴보면, 다양한 내용들이 있음을 볼 수 있다. 
어렸을 때 조기 유학을 다녀왔을 수도 있고, 오늘따라 듣기 방송이 클리어 했을 수도 있고, 오늘 학생의 컨디션이 좋았을 수도 있다. 그런데 연구자는 영어 시험 성적을 높이기 위해서 어떤 교수법이 좋을지를 연구하고자 한다. 
그렇다면 앞서서 말한 이 모든 것들은 With-treatment variability로써 연구에 영향을 줄 것이다. 


일단 이 의미를 생각한 다음에, 

Variable(변수 혹은 변인) : 

일상적으로도 많이 쓰이는 단어이다. "변수가 너무 많아서 시작하기 곤란한데-."
이 때 변수는 '가변적일 수 있다'는 뜻이고, 날씨가 변수가 된다는 말은 날씨가 가변적일 수 있다는 것을 뜻한다. 
variable을 또한 변인으로 번역하기도 하는데, 이 변화하는 것의 원인으로 지목된 것이라는 함의가 있다. 

어찌됐든 중요한 것은 변수 혹은 변인의 상대어는 '상수'이다. 변하지 않는 일정한 값을 가진 수라는 뜻이다. 



Variance(분산 혹은 변량) : 

분산은 얼마나 흩어져 있는가라는 뜻을 함의하고 있고, 변량은 그 양이 얼마나 변했는지에 대한 뜻이 있다. 
둘 다, 그 기준점이 있는데, 바로 그 기준점이 보고자 하는 기댓값이다. 

정의를 정확히 내리자면, 

"그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 가늠하는 수" 

라고 할 수 있다. 


그런데 분산보다는 분산의 제곱근인 표준편차가 더 많이 사용되는데, 그 이유는 다음 시간에 이야기 하도록 하자.
또 여기서 기댓값이란 무엇인가? 이것도 다음에 이야기 하도록 하자.ㅋㅋㅋ 


글쓰기 연습 정원을 가꿔봅시다. 2018/07/11 21:02 by Lynn

하얗고 까만 바탕 위에 이제 앞으로 무엇을 어떻게 시작해야 할지 잘 모르겠지만, 
일단 해 봅시다. 

계획을 세운 블로그는 아니지만, 
나만의 색깔을 갖춘 블로그가 완성되는 모습이 마치, 

정원을 완성시켜 나가는 모습일 겁니다. 

정보적 블로그가 되면 좋겠지만, 그를 목적으로 하기에는 너무 힘들겠다는 생각도 듭니다. 
일단 해보고, 이리저리 카테고리를 수정하다 보면, 

가야 할 방향성을 찾고
이 블로그만의 색채가 만들어지겠지요? 

그럼 정원을 가꿔봅시다. 


1