본문 바로가기

Study with me

[Machine Learning #2] Supervised Learning & Unsupervised Learning

* 이 글은 Andrew Ng 교수님의 Coursera 무료 온라인 강의인 'Machine Learning' 강의를 정리하였습니다.

 

1주차 - (1) 퀴즈 답 !

Tom Mitchell의 Machine Learning 정의 복습 :

프로그램이 일정 수준의 작업 성능(P: Performance)을 가지고 작업(T : Task)을 수행한다고 했을 때,

경험(E: Experience)이 증가함에 따라 작업(T)를 수행하는 성능(P)이 향상될 수 있습니다.

이 때 프로그램이 경험(E)로 부터 학습(Learn)을 했다고 표현합니다. 

 

[Quiz 답]   

스팸 메일을 구분하는 이메일 프로그램

경험(E) : 컴퓨터가 우리가 메일을 스팸/정상 메일로 분류하는 것을 잘 관찰하는 것

작업(T) : 스팸/정상 메일을 구분하는 것

작업 성능(P) : 정확하게 분류된 메일의 비율

-> 이메일 시스템은 경험(E)의 증가에 따라 작업(T)를 수행하는 작업 성능(P)이 향상됩니다.

Tom Mitchell 의 Machine Learning 정의


1주차 - (2) Supervised Learning(지도 학습) & Unsupervised Learning(비지도 학습)

Machine Learning Algorithms


1. Supervised Learning(지도 학습)

E.g. 집을 팔겠다!

- 우리가 알고리즘에게 데이터 집합을 주는데, 각 데이터에 알고리즘(기계)가 내보내야 할 예상 정답이 포함되어 있음

- 집에 대한 데이터를 제공했는데, 각 집마다 정확한 가격(그 집이 매매된 실제 가격)도 알려주는 것

- 알고리즘의 역할 : 정답(집값)을 더 많이 만들어내는 것 -> 정답(집값)을 모르는 것도(정답이 있는 데이터를 기반으로) 예측할 수 있게

-> Regression Problem(회귀 문제) - 연속된 값을 가진 결과를 예측하려 하는 것

Supervised Learning - Regression Problem

 

E.g. 종양 악성/양성 분류

- 악성은 해롭고 위험, 양성은 무해

- 종양이 악성이면 y = 1(yes), 종양이 양성이면 y=0(no)

- 알고리즘의 역할 :  정답(악성인지 아닌지)을 더 많이 만들어내는 것 -> 정답(악성인지 아닌지)을 모르는 것도(정답이 있는 데이터를 기반으로) 예측할 수 있게

-> Classification Problem(분류 문제) - 불연속적인 값을 가진 결과를 예측하려 하는 것 (e.g. 정답이 0 또는 1밖에 없음)

Supervised Learning - Classification Problem

 


2. Unsupervised Learning(비지도 학습) 

- 정답(라벨)이 다 똑같거나, 라벨이 아예 없음. 즉 정답이 없음.

- 알고리즘의 역할 : 데이터의 구조를 파악하는 것-> 어느 데이터끼리 몰려있는지(=유사한 특성을 가지는지) 묶기

- Clustering Algorithm(클러스터링 알고리즘)

- 예시) 기사 분류, 유전자 보유에 따라 사람들 묶기, 소셜 네트워크 가까운 사람끼리 묶기, 시장 세분화

Unsupervised Learning

- Cocktail party problem

Cocktail Party Problem


[Quiz]

1. 다음은 Regression Problems(회귀 문제)일까요? Classification Problem(분류 문제)일까요?

 

Problem 1 : You have a large inventory of identical items. You wannt to predict how many of these will sell over the next 3months

 

Problem 2 : You'd like software to examine individual customer accounts, and for each account decide if it has been hacked/compromised

 

2.  다음 중 Unsupervised Learning(비지도 학습)을 적용하기 적합한 것은 무엇일까요? ( 맞는 답을 모두 고르세요! & 힌트 : 밑줄)

a) Given email labeled as spam/not spam, learn a spam filter

b) Given a set of news articles found on the web, group them into set of articles about the same story

c) Given a database of customer data, automaticaaly discover market segments and group customers into different market segments

d) Given a dataset of patients diagnosed as either having diabetes or not, learn to classify new patients as having diabetes or not

 

* 정답은 다음 글에 있습니다 :D