목차
728x90
반응형
머신러닝(Machine Learning)
- 인공지능의 하위 분야
- 데이터를 통해 기계가 스스로 학습 모델을 도출하고, 새로운 데이터에 대한 추론과 패턴 예측에 활용
1. 머신러닝 관련 용어
데이터(data) : 문서, 사진, 음성, 동영상, 데이터베이스 등
특징(feature) : 각각의 아이템을 설명하는 데 사용하는 구분 가능한 특성 또는 특징의 개수
특징 벡터(feature vector) : 어떤 대상을 표현하는 특징으로 이루어진 n차원의 벡터
특징 추출(feature extraction) : 예측에 영향을 주는 주요 특징 벡터 추출(차원 감소기법을 사용하기도 함[PCA분석])
학습 데이터 셋(training dataset) : 학습에 사용하는 데이터의 집합
2. 머신러닝 흐름도
- 학습과 예측 단계로 구성
- 학습을 통해 모델을 생성하고 생성된 모델을 통해 예측 수행
3. 머신러닝의 종류
학습의 형태에 따라 3가지 학습 방법으로 구분
지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)
3-1. 지도학습(Supervised Learning)
주어진 입력과 정해진 출력 간의 관계를 학습
각 데이터에 레이블을 붙임(수작업)
학습 알고리즘 수작업으로 레이블을 입력한 데이터에 의존적임
결과를 수동으로 사람이 검도해야하는 비용 감소
장점
- 이전의 경험으로부터 데이터 출력을 생성
- 경험을 사용하여 성능 기준을 최적화
- 다양한 유형의 문제 해결에 도움이 됨
단점
- 출력에 반드시 레이블이 있는 데이터들을 사용해야 함
- 일반적으로 많은 시간이 걸림
- 빅데이터의 경우 엄청난 시간이 걸릴 수도 있음
3-2. 비지도학습(Unsupervised Learning)
주어진 입력에 대응하는 출력정보 없이 학습
데이터 분류에 대한 정보가 전혀 없이 패턴을 찾거나 데이터를 분류하려고 할 때 사용하는 학습 방법
규칙설을 스스로 찾아내는 것이 학습의 주요 목표
장점
- 학습데이터에 레이블이 없는 데이터 사용 가능
단점
- 정확성이 낮음(결과 검증에 많은 비용 발생)
- 계산복잡도가 높음(유사도)
3-3. 강화학습(Reinforcement Learning)
- 강화학습은 시행착오를 통해 보상하는 행동 학습
- 보산이 주어지는 문제 해결에 매우 효과적
- 통신망, 로봇 제어, 엘리베이터 제어, 그리고 체스와 바둑 같은 게임에 주로 응용됨
- 기계 또는 SW에이전트는 환경으로부터의 피드백을 기반으로 동작을 학습
- 이러한 동작은 한번에 모두 학습하거나 또는 시간이 지남에 따라 계속해서 적용할 수 있음
- 알고리즘은 사람의 입력에 의해 지속적으로 훈련됨
- 자동적으로 최대한 정확도를 높임
4. 머신러닝 기술
- 분류(Classification), 회귀(Regression), 군집(Clustering)
4-1. 분류(Classification)
- 레이블이 범주, 클래스 등 이산적 데이터일 경우
- 유사한 특성을 가진 데이터들 끼리 미리 정의된 카테고리로 분류
- 2개로 분류하는 것 : 이항분류(binary classification), 그 이상 : 다항분류(multi-class classification)
- 대중적 분류 알고리즘 : 나이브 베이즈(Naive Bayes)
4-2. 회귀(Regression)
- 레이블이 연속적인 수치형 데이터일 경우
- 변수들 사이의 관계를 추정하기 위한 통계적인 방법
- 학습데이터를 이용해 결과 값을 예측하는 것
- 대중적인 회귀방법 : 로지스틱 회귀(Logistic Regression)
4-3. 군집(Clustering)
- 서로 비슷한 개체 집합을 동일한 그룹으로 그룹화하는 작업
- 개체(카테고리)는 사전에 미리 정의되어 있지 않음
- 대표적인 군집 알고리즘 : k-means 알고리즘
4-4. 분류와 회귀의 차이점
분류 : 일정한 기준에 따라 명백하게 구분 짓는 것
회귀 : 오차 제곱의 합을 최소화하는 직선을 긋는 작업, 따라서 명확히 직선으로 구별되는 것이 아님
728x90
반응형
'Python > Analysis' 카테고리의 다른 글
[Analysis] MLP - 다층 퍼셉트론 (0) | 2024.03.25 |
---|---|
[Analysis] PCA - 주성분 분석 (0) | 2024.03.18 |
[Analysis] Naive Bayes를 이용한 데이터 분석 (0) | 2022.11.20 |
[Analysis] scikit-learn 선형회귀분석 (0) | 2022.11.08 |
[Analysis] CSV파일 활용하기 (0) | 2022.10.12 |