가장 먼저 무엇을 관측하는지를 생각해본다면 특징에 따라 완벽하고 객관적으로 정의할 수 있는 변수가 있지만, 반대로 매력과 같이 정의하기 모호하고 개인적인 변수가 존재한다. 또한 앞서 확인한 모호한 변수들은 측정하기에도 어려움이 있다. 이 대목에서 변수에 대한 두 가지의 정의가 필요하게 된다.
첫 번째는 개념적 정의이다. 개념적 정의한 변수가 뜻하는 것을 개념적, 정성적으로 설명하는 것을 의미한다. 만약 해당 변수의 의미가 처음부터 명확한 경우리면 굳이 이러한 정의를 제시할 필요는 없다. 하지만 취향 등에 관한 척도는 개념적 정의가 필요할 것이다.
다음으로 실질적 정의이다. 실질적 정의는 조작적 정의라고 불리기도 한다. 이는 개념적 정의를 실제로 측정과 계산이 가능한 모양으로 구체화시킨 것이다.
<aside> 💡 하나의 개념적 정의에 대해 실질적 정의는 여러 가지로 제시될 수 있다.
</aside>
무엇에 대한 정의를 앞서 보았으니, 이번에는 어떻게에 대하여 생각해보자. 우리는 어떤 변수의 값을 나타내는 단위를 정해야 한다. 이 단위를 척도라고 한다. 이 척도는 정량적으로 완전하게 파악이 가능하기도 하지만, 그렇지 못한 경우도 있기에 여러 선택지를 두고 선택하는 등 여러 척도를 가지고 파악할 수 있다.
(1) 명목 척도
명목 척도란 어떠한 특성 변수를 여러 가지 범주로 나눈 후, 관측치를 해당되는 범주에 배치하는데 사용되는 척도이다. 따라서 이 척도를 바탕으로 만들어진 데이터를 범주형 자료라고 한다. 명목 척도는 문자로 표기할 수 있다. 예를 들어 성별이라는 변수라면 남자 또는 여자라는 2개의 범주로 나눌 수 있다는 것이다. 하지만 일반적으로 데이터는 숫자로 표현하는 것이 좋다. 따라서 남자=1, 여자=2로 표현하는 것이 좋다고 볼 수 있다(특히 데이터 분석을 컴퓨터로 진행한다면 말이다).
이 때 범주는 아래의 3가지 조건을 만족하도록 나누어야 한다.
(2) 서열 척도
서열 척도란 순서 척도라고 불리기도 한다. 이것은 관측치 사이의 크기, 수량 비중 등의 비교를 위해 사용되는 것이다. 등수 등을 통해 순위를 매기면 서열 척도의 데이터가 될 수 있다. 하지만 서열 척도는 서열 간의 간격을 알 수 없기에 이를 고려하여 사용하여야 한다.
(3) 등간 척도