incastle의 콩나물
[Data Mining] Introduction to Data Mining -3- (Data Quality) 본문
[Data Mining] Introduction to Data Mining -3- (Data Quality)
incastle 2019. 5. 1. 20:26데이터 마이닝 진창호 교수님 (19-1)
저번 포스팅까지 정리한 것
data란?
Data set(data structure)의 type
Data Quality에 대해서 다룰 주제
- 어떠한 종류의 data qualtiy의 문제가 있냐?
- data로부터 이 문제를 detect 할 수 있냐?
- 이러한 problem을 어떻게 해결하느냐?
두 종류의 data quality가 있다.
1) Measurement errors (측정의 문제)
- 측정 과정에서 발생하는 문제
- Noise(발생 경향은 random), Artifact(발생 경향이 고정적)
- precision과 bias에 의해 측정된다.
- 수집은 됐는데 이상한 게 수집된 것
2) Data collection errors (수집의 문제)
- object나 attribute를 수집 중 누락하거나, 불필요한 데이터가 포함된 것
- Outlier : 정상적으로 수집은 됐지만 주류에서 벗어남, 목적에 따라서 outlier일 수도 있고 아닐 수도 있고
- missing : 누락 됨
- duplicate : 두 번 됐졍
- 수집했고 이상한 놈은 아닌데, 우리한테는 불필요한 것이거나 혹은 수집 자체가 안된 것\
* 둘이 동시 발생 가능하다.
Noise를 좀 더 알아보자
- random component of a measurement error.
- 잘못된 데이터, distortion(왜곡)된 데이터를 포함한다.
- 측정되면 안 되는 게 포함된 것(이 부분이 outlier랑 다르다.)
- Measurement error metrics로 측정(?)
Noise 제거
- 신호, 이미지 데이터를 처리할 때 noise reduce를 많이 함
- noise를 제거하는 건 힘듦 => 이걸 안고 가되, 잘 처리할 수 있는 알고리즘 사용 => robust 알고리즘(방해 요소가 있어서 기능의 변동이 적다)
Artifact
- Deterministic(결정론적인) distortions of the data
Measurement error metrics
1) bias : Truth와 내가 측정한 mean 사이의 근접도
>> A systematic variation of measurements from the quality being measured
>> 정답 하고 얼마나 가깝냐?
>> 높으면 안 좋은 거
2) precision : 반복적으로 측정되는 것과 얼마나 근접하냐(truth와 관련 없이 내 예측의 mean과의 근접도)
>> often measured by the standard deviation of a set of values
>> 내가 특정 한 곳에 얼마나 잘 찍었냐?
>> 높으면 좋은 거
3) Accuracy : 정답으로부터 얼마나 근접하냐
>> closeness of measurement to the true value of the quantity being measured
>> bias + precision
>> High accuracy, Low precision => 중앙에는 종종 맞췄는데 흩어졌음
>> Low accuracy, High precision => 이상한 곳에 맞췄는데 뭉침(크리크 조정하면 되겠다 ㅎ)
>> 결론 : accuracy, precision을 높여라, 그러면 개 좋음
Outliers
- data set에서 이상하게 다른 놈에서 비해서 튀는 것(멀어진 것)
반복 측정 => true valeu를 찾는 다고 가정하자
Noise와 Outlier의 차이
Outlier | Noise |
Legitimate(적합한, 합법적인) data | Random component |
분석 목적에 따라서 유의미할 수 있음 | 제거 대상임 |
Fraud(사기) Detection 할 때 사용 가능 | Less noise makes the data more meaning ful |
- 한국 집 값 데이터를 수집 => 강남 집값은 outlier일 수 있음(너무 높아) // 데이터 수집 중에 실수로 아이스크림 가격이 들어감(?) noise임
- 생각해보면 outlier를 detection 했는데 알고 보니 noise일 수 있을 수도
Missing Values
- 발생하는 이유
1) 데이터가 수집 x (설문 조사를 하는데 너무 privacy 한 정보여서 사람들이 ㅌㅌ함)
2) 수집할 수 없는 case ( 설문조사하는데 학생에게 월 소득을 수집할 수는 없음)
- missing values를 다루는 법
1) 행 자체를 제거한다.
2) missing value를 추측한다. (평균, 최빈값 등)
3) missing 한 채로 일단 분석한다.
4) replace with all posiible values ( 확률 분포를 이용해서, missing 자체를 예측하는 것)
Duplicate Data
- 데이터가 복제됨 (완전히 복제)
- 어설프게 복제됨 (홍길동, 길동 홍)
- 그래서 이메일이 두 번 보내지는 등의 문제
- Data cleaning 작업을 거쳐서 그런 문제 해결하자~(구체적으로 어떻게인지는 수업에서 안 함)
'19-1 대학 수업 > 데이터마이닝' 카테고리의 다른 글
[Data Mining] Classification : Basic Concepts (0) | 2019.05.02 |
---|---|
[Data Mining] Introduction to Data Mining -4- (Data Preprocess, 전처리) (0) | 2019.05.02 |
[Data Mining] Introduction to Data Mining -2- (Data란?) (0) | 2019.05.01 |
[Data Mining] Introduction to Data Mining -1- (0) | 2019.04.26 |