데이터 수집 방법
: 통계조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정 방법(측정도구, 질문지)으로 측정하여 얻음
*측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업
ex) 표본으로 뽑힌 사람들의 몸무게, 지능 등을 관측하여 수치로 나타내는 경우
-> 측정된 전체 자료를 데이터(data)라고 함.
데이터 관련 기본용어
*케이스(case, 레코드)
: 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체
*변수(variable, 필드)
: 각 조사단위로부터 측정된 개별적인 속성
ex)
위의 자료를 데이터의 행렬 형태로 표현할 수 있다.
: 데이터를 행렬 형태로 표시하면 이해하기 쉬움
: 각 행은 케이스(레코드), 각 열은 변수(필드)가 됨
: 임꺽정 케이스에서 교육정도의 "."는 결측값(무응답)을 뜻함.
: 성별과 학력도 수치화해서 나타낼 수 있음. ex) 고졸 : 1, 대졸 : 2
측정의 수준
: 측정 수준에 따라 명목척도, 순서척도, 구간척도, 비율척도로 구분함
: 측정의 척도에 따라서 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라짐
명목척도(Nominal scale : 명명척도)
: 측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여
: 단순히 범주 구분이 목적임. -> 수치의 대소 비교, 연산은 의미 없음
ex) 남여 구분, 운동선수 등번호, 종교 등
순서척도(Ordinal scale : 서열척도)
: 어떤 특성을 많고 적음에 따라 수치를 부여함
: 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있음
ex) 좋음(3), 보통(2), 나쁨(1)
구간척도(Interval scale : 등간척도)
: 측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치 부여
: 연속형 값으로 측정값의 차이는 의미 있지만, 비(比)는 의미 없음
: 절대 0을 정의할 수 없고, 임의로 지정된 0만 있음
ex) IQ, 적성검사 점수, 주가지수
비율척도(Ratio scale)
: 구간척도와 유사하지만 비(比)도 의미 있는 경우
: 절대 0을 정의할 수 있음
ex) 체중, 신장
데이터의 구분
*측정 수준에 따른 구분
-질적변수
-양적변수 : 연속형 변수
*측정되는 변수의 수에 따른 구분
-일변량 데이터
-다변량 데이터
'방통대 > 데이터정보처리' 카테고리의 다른 글
2-4 데이터의 점검 (2) | 2024.02.27 |
---|---|
2-3 데이터의 입력 (0) | 2024.02.27 |
2-1 데이터(data) (0) | 2024.02.27 |
1-7 R Studio 설치 (0) | 2024.02.21 |
1-6 R read.csv 예제 (0) | 2024.02.21 |