incastle의 콩나물

[Data Mining] Introduction to Data Mining -3- (Data Quality) 본문

19-1 대학 수업/데이터마이닝

[Data Mining] Introduction to Data Mining -3- (Data Quality)

incastle 2019. 5. 1. 20:26

데이터 마이닝 진창호 교수님 (19-1)

 

저번 포스팅까지 정리한 것

data란?

Data set(data structure)의 type

 

Data Quality에 대해서 다룰 주제

- 어떠한 종류의 data qualtiy의 문제가 있냐?

- data로부터 이 문제를 detect 할 수 있냐?

- 이러한 problem을 어떻게 해결하느냐?

 

두 종류의 data quality가 있다.

1) Measurement errors (측정의 문제)

- 측정 과정에서 발생하는 문제

- Noise(발생 경향은 random), Artifact(발생 경향이 고정적)

- precision과 bias에 의해 측정된다. 

- 수집은 됐는데 이상한 게 수집된 것

 

2) Data collection errors (수집의 문제)

- object나 attribute를 수집 중 누락하거나, 불필요한 데이터가 포함된 것

- Outlier : 정상적으로 수집은 됐지만 주류에서 벗어남, 목적에 따라서 outlier일 수도 있고 아닐 수도 있고

- missing : 누락 됨

- duplicate : 두 번 됐졍

- 수집했고 이상한 놈은 아닌데, 우리한테는 불필요한 것이거나 혹은 수집 자체가 안된 것\

* 둘이 동시 발생 가능하다. 

 

Noise를 좀 더 알아보자

- random component of a measurement error.

- 잘못된 데이터, distortion(왜곡)된 데이터를 포함한다. 

- 측정되면 안 되는 게 포함된 것(이 부분이 outlier랑 다르다.)

- Measurement error metrics로 측정(?)

 

Noise 제거

- 신호, 이미지 데이터를 처리할 때 noise reduce를 많이 함

- noise를 제거하는 건 힘듦 => 이걸 안고 가되, 잘 처리할 수 있는 알고리즘 사용 => robust 알고리즘(방해 요소가 있어서 기능의 변동이 적다)

 

Artifact

- Deterministic(결정론적인) distortions of the data

 

Measurement error metrics

1) bias : Truth와 내가 측정한 mean 사이의 근접도

>> A systematic variation of measurements from the quality being measured

>> 정답 하고 얼마나 가깝냐?

>> 높으면 안 좋은 거

 

2) precision : 반복적으로 측정되는 것과 얼마나 근접하냐(truth와 관련 없이 내 예측의 mean과의 근접도)

>> often measured by the standard deviation of a set of values

>> 내가 특정 한 곳에 얼마나 잘 찍었냐?

>> 높으면 좋은 거

 

3) Accuracy : 정답으로부터 얼마나 근접하냐

>> closeness of measurement to the true value of the quantity being measured

>> bias + precision

 

>> High accuracy, Low precision => 중앙에는 종종 맞췄는데 흩어졌음

>> Low accuracy, High precision => 이상한 곳에 맞췄는데 뭉침(크리크 조정하면 되겠다 ㅎ)

>> 결론 : accuracy, precision을 높여라, 그러면 개 좋음

 

Outliers

- data set에서 이상하게 다른 놈에서 비해서 튀는 것(멀어진 것)

반복 측정 => true valeu를 찾는 다고 가정하자

 

Noise와 Outlier의 차이

Outlier Noise
Legitimate(적합한, 합법적인) data Random component
분석 목적에 따라서 유의미할 수 있음 제거 대상임
Fraud(사기) Detection 할 때 사용 가능 Less noise makes the data more meaning ful

- 한국 집 값 데이터를 수집 => 강남 집값은 outlier일 수 있음(너무 높아) // 데이터 수집 중에 실수로 아이스크림 가격이 들어감(?) noise임

- 생각해보면 outlier를 detection 했는데 알고 보니 noise일 수 있을 수도

 

Missing Values

- 발생하는 이유

1) 데이터가 수집 x (설문 조사를 하는데 너무 privacy 한 정보여서 사람들이 ㅌㅌ함)

2) 수집할 수 없는 case ( 설문조사하는데 학생에게 월 소득을 수집할 수는 없음)

- missing values를 다루는 법

1) 행 자체를 제거한다. 

2) missing value를 추측한다. (평균, 최빈값 등)

3) missing 한 채로 일단 분석한다. 

4) replace with all posiible values ( 확률 분포를 이용해서, missing 자체를 예측하는 것)

 

Duplicate Data

- 데이터가 복제됨 (완전히 복제)

- 어설프게 복제됨 (홍길동, 길동 홍)

- 그래서 이메일이 두 번 보내지는 등의 문제

- Data cleaning 작업을 거쳐서 그런 문제 해결하자~(구체적으로 어떻게인지는 수업에서 안 함)

Comments