목록19-1 대학 수업/데이터마이닝 (5)
incastle의 콩나물
데이터 마이닝 진창호 교수님 (19-1) Classification의 Goal - Previously unseen records should be assigned a class as accurately as possible >> A test set is used to determine the accuracy of the model >> training set => bulid a model >> test set => validate >> 내가 알고 있는 지식으로는 validate set이 따로 있는데... 그냥 그러려니 하고 넘어가자. Purpose of Classification Model - Descriptive Modeling >> 서로 다른 class를 갖고 있는 object를 구별하는 설명 도구 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b1ySOW/btquWj4VRRw/QKHKCj8436c7nbiZDcknJ1/img.png)
데이터 마이닝 진창호 교수님 (19-1) 전처리 방법들, 각각을 설명할 수 있는지 체크하기 - Aggregation : object 두 개를 하나로 합치기! - Sampling : 데이터 양이 너무 많아~ 계산 비용을 줄이기 위해서 샘플링! - Dimensionality Reduction : sampling 하고 같은 목적 + data를 visualizing 해서 insight 얻기 +불필요한 feature 줄이기 + noise 줄이기 - Feature subset selection : 차원 축소하는 방법 중 하나임 - Feature creation - Discretization and Binarization(이산화 이진화) : certain algorithms requires certain form o..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bvjNyZ/btquX4LVlWu/xjILuM0iUXZeDWUt1dzblk/img.png)
데이터 마이닝 진창호 교수님 (19-1) 저번 포스팅까지 정리한 것 data란? Data set(data structure)의 type Data Quality에 대해서 다룰 주제 - 어떠한 종류의 data qualtiy의 문제가 있냐? - data로부터 이 문제를 detect 할 수 있냐? - 이러한 problem을 어떻게 해결하느냐? 두 종류의 data quality가 있다. 1) Measurement errors (측정의 문제) - 측정 과정에서 발생하는 문제 - Noise(발생 경향은 random), Artifact(발생 경향이 고정적) - precision과 bias에 의해 측정된다. - 수집은 됐는데 이상한 게 수집된 것 2) Data collection errors (수집의 문제) - obje..
데이터 마이닝 진창호 교수님 (19-1) 학습 목표 - Data type, Qualityrk Data 분석 시에 야기할 수 있는 문제의 예시와 해결 방안 - Attribute가 가질 수 있는 value의 종류를 나열하고 예시 - Data attribute에 value를 할당하는 measuerment scale의 기능을 설명, value별로 예시 - attribute value 4가지 속성 구분, 각 속성에 따란 measuerment scale 결정 - Discrete attribute와 continuous attribute를 구분, 예시 - Asymmetric(비대칭적) attribute의 예시 - 동일한 attribute에도 상황에 따라 asymmetric attribute에 1과 0을 할당이 달라질 ..