incastle의 콩나물
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/PcBn6/btqvdluurt4/kJRO3qCjrKAF1kFvcJoEvK/img.png)
docker를 활용해서 tensorflow 환경 셋팅. 단 jupyter notebook을 사용한다. docker란? https://www.44bits.io/ko/post/why-should-i-use-docker-container 왜 굳이 도커(컨테이너)를 써야 하나요? - 컨테이너를 사용해야 하는 이유 컨테이너는 서버 애플리케이션을 배포하고 서버를 운영하는 표준적인 기술이 되어가고 있습니다. 하지만 처음 사용해본다면 그 장점이 잘 와닿지 않을 수도 있습니다. 왜 굳이 도커 컨테이너를 사용해야할까요? 이 글에서는 눈송이 서버를 넘어 컨테이너가 애플리케이션 배포와 운영에 있어 어떤 장점이 있는지 알아봅니다. www.44bits.io 결론은 좋다. 현업에서도 많이들 사용한다고 한다. 일단 docker를 설..
데이터 마이닝 진창호 교수님 (19-1) Classification의 Goal - Previously unseen records should be assigned a class as accurately as possible >> A test set is used to determine the accuracy of the model >> training set => bulid a model >> test set => validate >> 내가 알고 있는 지식으로는 validate set이 따로 있는데... 그냥 그러려니 하고 넘어가자. Purpose of Classification Model - Descriptive Modeling >> 서로 다른 class를 갖고 있는 object를 구별하는 설명 도구 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b1ySOW/btquWj4VRRw/QKHKCj8436c7nbiZDcknJ1/img.png)
데이터 마이닝 진창호 교수님 (19-1) 전처리 방법들, 각각을 설명할 수 있는지 체크하기 - Aggregation : object 두 개를 하나로 합치기! - Sampling : 데이터 양이 너무 많아~ 계산 비용을 줄이기 위해서 샘플링! - Dimensionality Reduction : sampling 하고 같은 목적 + data를 visualizing 해서 insight 얻기 +불필요한 feature 줄이기 + noise 줄이기 - Feature subset selection : 차원 축소하는 방법 중 하나임 - Feature creation - Discretization and Binarization(이산화 이진화) : certain algorithms requires certain form o..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bvjNyZ/btquX4LVlWu/xjILuM0iUXZeDWUt1dzblk/img.png)
데이터 마이닝 진창호 교수님 (19-1) 저번 포스팅까지 정리한 것 data란? Data set(data structure)의 type Data Quality에 대해서 다룰 주제 - 어떠한 종류의 data qualtiy의 문제가 있냐? - data로부터 이 문제를 detect 할 수 있냐? - 이러한 problem을 어떻게 해결하느냐? 두 종류의 data quality가 있다. 1) Measurement errors (측정의 문제) - 측정 과정에서 발생하는 문제 - Noise(발생 경향은 random), Artifact(발생 경향이 고정적) - precision과 bias에 의해 측정된다. - 수집은 됐는데 이상한 게 수집된 것 2) Data collection errors (수집의 문제) - obje..