CAI
지도 학습 vs 비지도 학습 (Supervised learning VS Unsupervised learning) 본문
지도 학습 vs 비지도 학습 (Supervised learning VS Unsupervised learning)
CAI_KJH 2023. 2. 2. 14:51
지도학습(Supervised learning)이란?
지도 학습은 label이 지정된 데이터 세트를 사용하는 머신러닝 접근 방식이다. label이 지정된 데이터 세트를 이용해 데이터를 분류하거나 결과를 정확하게 예측하도록 알고리즘을 설계한다. 인공지능 모델은 label이 있는 입력 및 출력을 사용하여 정확도를 측정하고 학습할 수 있다.
지도 학습은 회귀(Regression)와 분류(Classification)라는 두 가지 유형의 문제로 나눌 수 있다.
회귀 (Regression)
회귀는 알고리즘을 사용하여 종속 변수와 독립 변수 간의 관계를 이해하는 지도 학습의 방법 중 하나이다. 회귀 모델은 특정 비즈니스에 대한 판매 수익 예측과 같이 다양한 데이터 요소를 기반으로 숫자 값을 예측하는 데 유용하다. 회귀 알고리즘에는 선형 회귀(Linear regression), 로지스틱 회귀(Logistic regression)및 다항식 회귀(Polynomial regression)등이 있다.
분류 (Classification)
분류 문제는 알고리즘을 사용하여 사과와 오렌지를 분리하는 것과 같이 데이터를 특정 카테고리로 할당하는 방식이다. 또는 지도 학습 알고리즘을 사용하여 받은 편지함과 별도의 폴더에 스팸을 분류할 수 있다. 선형 분류기(Linear classifier), SVM(Support Vector Machine), 의사 결정 트리(Decision tree) 및 랜덤 포레스트(Random forest)등의 분류 알고리즘이 있다.
비지도 학습 (Unsupervised learning) 이란?
비지도 학습은 머신러닝 알고리즘을 사용하여 label이 지정되지 않은 데이터 세트를 분석하고 클러스터링한다. 이러한 알고리즘은 사람의 개입 없이 데이터에서 숨겨진 패턴을 발견하는 방식이다.
비지도 학습 모델은 클러스터링(Clustering), 연관(Association) 및 차원 축소(Dimentionality reduction)의 세 가지 주요 작업에 많이 사용된다.
클러스터링 (Clustering)
클러스터링은 라벨이 지정되지 않은 데이터를 유사성 또는 차이점에 따라 그룹화하는 데이터 마이닝 기술이다. 예를 들어, K-means 클러스터링 알고리즘은 유사한 데이터 포인트를 그룹에 할당한다. 여기서 K 값은 그룹화 및 세분성의 크기를 나타낸다. 이 기술은 시장 세분화, 이미지 압축 등에 유용하다.
연관 (Association)
Association은 주어진 데이터 세트에서 변수 간의 관계를 찾는 비지도 학습 방법이다. 이러한 방법은 장바구니 분석 및 추천 엔진에 자주 사용된다.
차원 축소 (Dimensionality reduction)
차원 축소는 특정 데이터 세트의 특징(feature) 또는 차원(dimention) 수가 너무 많을 때 사용되는 학습 기술이다. 데이터 무결성(data integrity)을 유지하면서 데이터 입력 수를 관리 가능한 크기로 줄인다. 종종 이 기술은 Autoencoders를 이용해 시각적 데이터에서 노이즈를 제거해 화질을 개선하는 경우와 같이 데이터 전처리 단계에서 사용된다.
지도 학습과 비지도 학습의 가장 큰 차이점 : "Label"
두 접근 방식의 주요 차이점은 데이터 세트에 label이 지정되어 있는지 아닌지이다. 간단히 말해서 지도 학습은 label이 지정된 입력 및 출력 데이터를 사용하는 반면 비지도 학습 알고리즘은 그렇지 않다.
지도 학습에서 알고리즘은 label된 데이터 세트를 이용해 반복적으로 데이터를 예측하고 정답(label)과의 오차를 줄여나가며 학습한다. 지도 학습 모델은 비지도 학습 모델보다 더 정확한 경향이 있지만 데이터에 적절하게 레이블을 지정하려면 사전에 사람의 개입이 필요하다. 예를 들어 지도 학습 모델은 시간, 기상 조건 등을 기반으로 통근 시간을 예측할 수 있지만 먼저 비가 오는 날씨가 운전 시간을 연장한다는 것을 알기 위해 훈련이 필요하다.
대조적으로 비지도 학습 모델은 label이 지정되지 않은 데이터의 고유한 구조를 발견하기 위해 자체적으로 작동한다. 출력 변수의 유효성을 검사하려면 여전히 사람의 개입이 필요하다. 예를 들어, 비지도 학습 모델은 온라인 쇼핑객이 구매했던 제품들을 분석해 다른 온라인 쇼핑객에게 구매할 만한 물건을 추천해 줄 수 있다. 그러나 데이터 분석을 통해서 추천 엔진이 추천해 준 항목들이 타당한지 검증해야 한다.
지도 학습과 비지도 학습의 또 다른 차이점
목표
지도 학습에서 목표는 새로운 데이터의 결과를 예측하는 것이다.
비지도 학습 알고리즘의 목표는 많은 양의 새로운 데이터에 대한 통찰력을 얻는 것이다.
활용
지도 학습 모델은 무엇보다도 스팸 탐지, 감정 분석, 일기 예보 및 가격 예측에 이상적이다.
대조적으로 비지도 학습은 이상 감지, 추천 엔진, 고객 페르소나 및 의료 영상에 매우 적합하다.
복잡성
지도 학습은 일반적으로 R 또는 Python과 같은 프로그램을 사용하여 계산되는 간단한 머신러닝 방법이다.
비지도 학습에서는 대량의 분류되지 않은 데이터로 작업하기 위한 강력한 도구가 필요하다. 비지도 학습 모델은 의도한 결과를 생성하기 위해 대규모 훈련 세트가 필요하기 때문에 계산적으로 복잡하다.
단점
지도 학습 모델은 훈련하는 데 시간이 많이 걸릴 수 있으며 입력 및 출력 변수에 대한 label에는 전문 지식이 필요하다. 한편, 비지도 학습 방법은 출력 변수를 검증하기 위해 사람이 개입하지 않았을 경우, 부정확한 결과를 가질 수 있다.
지도 학습과 비지도 학습 중 뭐가 더 좋다고 할 수는 없다.
데이터의 구조나 사용 분야에 맞게 적합한 방식을 선택하는 것이 중요하다.
Semi-supervised learning: 반 지도 학습
지도 학습을 사용할지 또는 비지도 학습을 사용할지 결정할 수 없을 때 고려해볼 수 있는 방법이 반 지도 학습이다. 반 지도 학습은 label이 지정된 데이터와 label이 지정되지 않은 데이터가 모두 포함된 학습 데이터 세트를 사용하는 방식이다. 데이터에서 관련 기능을 추출하기 어렵고 데이터의 양이 많을 때 특히 유용하다.
Semi-supervised learning은 적은 양의 훈련 데이터로 정확도가 크게 향상될 수 있는 의료 이미지에 이상적이다. 예를 들어, 방사선 전문의는 종양이나 질병에 대한 CT 스캔의 작은 하위 집합에 label을 지정하여 기계가 더 많은 의료 조치가 필요한 환자를 더 정확하게 예측할 수 있다.
Reference
https://www.ibm.com/cloud/blog/supervised-vs-unsupervised-learning
'Machine Learning > Basic' 카테고리의 다른 글
지도학습(Supervised learning)에 대해 알아보자 (0) | 2023.02.02 |
---|