교육기간 2017.11.06 ~ 2017.11.14 (월~금) 강의시간 7일 21시간(1일 3시간)
19:00 ~ 22:00
교육비용 600,000원 교육비지원 비환급과정
교육정원 20명 문의 02-3486-3456
수강신청
과정소개

통계와 머신러닝 등 데이터 분석의 핵심 기술에 대한 중급 수준을 목표로 합니다.

과정 특징

“데이터 분석과 머신러닝의 구체적인 지식 습득”

데이터 분석과 머신러닝에 체계적으로 접근하여 구체적인 지식 습득을 목표로 합니다. 특히 이론과 실습을 번갈아 가면서 학습 내용에 대한 자신감과 성숙도를 더해 갑니다.

“부트캠프의 중급 과정”

해외 유수 부트캠프 과정을 벤치마킹하여 짧은 시간동안 강도 높은 학습으로 튼튼한 기초를 다집니다. 데이터 전문가로서의 방향을 로드맵으로 제시해 드립니다.

“좋은 문제를 발견하는 것이 그 해결 방법을 찾는 것보다 중요합니다.”

항상 “왜?” 또는 “어떻게?”라는 질문을 던져서 강사님과 수강생 함께 재미있고 의미있는 문제를 찾아갑니다.

“데이터 분석은 스토리 텔링입니다!”

데이터에서 재미있는 스토리를 발견하고 이것을 통찰력으로 활용할 때 데이터를 통한 새로운 가치가 창출됩니다. 모두 21세기의 최고 스토리 텔러가 되어 보십시요!

과정 로드맵

교육대상

- 과거 최소 한가지 이상의 프로그래밍 언어를 공부해 본 적이 있으신 분. 예를 들자면 for루프가 무었인지 if ~ then이 왜 필요한지 알고 실수와 정수 자료형의 차이를 아시는 분.
- 통계 용어 중 평균, 표준편차, 정규분포가 무엇인지 아시는 분.
- Excel과 같은 프로그램을 사용해서 산점도, 히스토그램 등 데이터의 시각화를 적용해 본 경험이 있는 분.
- 업무에서 데이터 활용 방법에 대해서 실질적인 고민을 하시고 있으신 분
- IT 분야 취업준비를 위해서 짧은 시간 안에 데이터 분석과 개발 능력을 겸비하고자 하시는 분.

선수과목

R을 활용한 데이터 분석과 머신러닝(초급)

교육내용
교육일정 교육내용
1일 머신러닝 개요
- 머신러닝의 원리와 기초
- 베이즈 통계법과 적용 (나이브 베이즈 분류법)
- R과 RStudio. 머신러닝을 위한 패키지 소개
- R 프로그래밍 언어 리뷰
- 예문 실습 & Mini-Project
2일 통계, 데이터 가공, 시각화 심화
- 기술 통계, 통계적 추론, 가설 검정
- 실용 예문으로 살펴보는 통계의 적용
- plyr, dplyr, tidyr 패키지 사용한 데이터 가공과 요약 리뷰
- ggplot2, ggthemes 패키지 사용한 시각화
- 예문 실습 & Mini-Project
3일 지도형 머신러닝I
- 머신러닝의 고전 선형회귀 심화
- 선형회귀 모형의 최적화. 정보량과 분산분석(ANOVA)
- 잔차와 레버리지 분석
- Ridge회귀, Lasso회귀, 다항회귀
- 예문 실습 & Mini-Project
4일 지도형 머신러닝II
- 분류형, 머신러닝의 기초 로지스틱 회귀
- ROC곡선, 혼동행렬, 성과분석, 민감도와 특이도 활용
- 예문 실습 & Mini-Project
5일 지도형 머신러닝III
- Caret 패키지를 사용한 머신러닝
- 학습과 테스트. Cross validation. 데이터 전처리.
- 분류 알고리즘 (SVM, KNN, Tree, Random Forest)의 원리와 적용 방법.
- 편향-분산 트레이드오프 (bias-variance tradeoff).
- 예문 실습 & Mini-project
6일 비지도형 머신러닝
- 클러스터 분석 (k-means, DBSCAN, Hierarchical)의 원리와 비교
- 주성분 분석의 원리
- 디멘전 축소와 데이터 압축의 원리와 실습 (이미지 데이터 사용).
- 클러스터의 최적 시각화.
- 예문 실습 & Mini-project.
7일 시계열, 텍스트 마이닝, 끝맺음
- 시계열 분석과 시뮬레이션을 통한 예측(주식 가격 동향 예측 실습)
- 텍스트 마이닝의 목적과 원리. 정규표현식, TM 패키지 활용
- 예문 실습 & Mini-Project
- 데이터 전문가 로드맵
- 질의 응답

※ 교육인원 미달 시 일정 변경 또는 폐강될 수 있음

교육내용 예제

"SVM, KNN, 랜덤 포레스트와 같은 지도학습을 쉽게 적용하는 방법을 알려주세요. 그리고 전처리는 어떻게 하나요?"

"Tree 분류형 알고리즘의 사용법을 알려주세요."

"계층적 클러스터링, k-means, DBSCAN 등과 같은 군집분석 방법의 장단점을 비교해 주세요."

"신용불량 진단, 암 진단과 같이 드물게 발생하지만 임팩트가 큰 이벤트를 예측하고 성과를 진단하는 방법을 알려주세요."


강의 기획의도

흔히 데이터 분석은 시간과의 싸움이라고도 합니다. 그리고 다수의 실무 데이터는 매우 불완전 하며 결측치, 오류 등이 많이 포함되어 있습니다. 그러므로 데이터 분석에는 정답이 없고 제한적 시간 내에 쓸만한 결과를 얻는 것이 목적인 경우가 많습니다. 최신, 최고의 머신러닝 알고리즘을 적용하는 것 보다 데이터를 잘 가공하고 통계와 시각화를 통한 탐색적 분석으로 직관적 이해를 구하는 것이 매우 중요합니다. 큰 그림을 시작으로 하는 하향식 접근법 (top down approach)도 중요하지만 소소한 디테일에서 부터 시작하는 상향식 접근법 (bottom up approach) 또한 중요합니다. 강사님은 실제 데이터 분석에서 자주 마주치는 어려움을 하나씩 차근차근 풀어나가서 의미있는 결과를 만들어 가는 프로세스 정리의 필요성을 느끼던 중 이번 강의를 기획하게 되었습니다.

Top