Python/Analysis

[Analysis] Machine Learning 이란?

gangee 2023. 12. 27. 17:11

목차

    728x90
    반응형

    머신러닝(Machine Learning)

    • 인공지능의 하위 분야
    • 데이터를 통해 기계가 스스로 학습 모델을 도출하고, 새로운 데이터에 대한 추론과 패턴 예측에 활용

    1. 머신러닝 관련 용어

    데이터(data) : 문서, 사진, 음성, 동영상, 데이터베이스 등
    특징(feature) : 각각의 아이템을 설명하는 데 사용하는 구분 가능한 특성 또는 특징의 개수
    특징 벡터(feature vector) : 어떤 대상을 표현하는 특징으로 이루어진 n차원의 벡터
    특징 추출(feature extraction) : 예측에 영향을 주는 주요 특징 벡터 추출(차원 감소기법을 사용하기도 함[PCA분석])
    학습 데이터 셋(training dataset) : 학습에 사용하는 데이터의 집합

    2. 머신러닝 흐름도

    • 학습과 예측 단계로 구성
    • 학습을 통해 모델을 생성하고 생성된 모델을 통해 예측 수행

    3. 머신러닝의 종류

    • 학습의 형태에 따라 3가지 학습 방법으로 구분

    • 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)

      3-1. 지도학습(Supervised Learning)

      • 주어진 입력과 정해진 출력 간의 관계를 학습

      • 각 데이터에 레이블을 붙임(수작업)

      • 학습 알고리즘 수작업으로 레이블을 입력한 데이터에 의존적임

      • 결과를 수동으로 사람이 검도해야하는 비용 감소

        장점

        • 이전의 경험으로부터 데이터 출력을 생성
        • 경험을 사용하여 성능 기준을 최적화
        • 다양한 유형의 문제 해결에 도움이 됨

        단점

        • 출력에 반드시 레이블이 있는 데이터들을 사용해야 함
        • 일반적으로 많은 시간이 걸림
        • 빅데이터의 경우 엄청난 시간이 걸릴 수도 있음

      3-2. 비지도학습(Unsupervised Learning)

      • 주어진 입력에 대응하는 출력정보 없이 학습

      • 데이터 분류에 대한 정보가 전혀 없이 패턴을 찾거나 데이터를 분류하려고 할 때 사용하는 학습 방법

      • 규칙설을 스스로 찾아내는 것이 학습의 주요 목표

        장점

        • 학습데이터에 레이블이 없는 데이터 사용 가능

        단점

        • 정확성이 낮음(결과 검증에 많은 비용 발생)
        • 계산복잡도가 높음(유사도)

      3-3. 강화학습(Reinforcement Learning)

      • 강화학습은 시행착오를 통해 보상하는 행동 학습
      • 보산이 주어지는 문제 해결에 매우 효과적
      • 통신망, 로봇 제어, 엘리베이터 제어, 그리고 체스와 바둑 같은 게임에 주로 응용됨
      • 기계 또는 SW에이전트는 환경으로부터의 피드백을 기반으로 동작을 학습
      • 이러한 동작은 한번에 모두 학습하거나 또는 시간이 지남에 따라 계속해서 적용할 수 있음
      • 알고리즘은 사람의 입력에 의해 지속적으로 훈련됨
      • 자동적으로 최대한 정확도를 높임

    4. 머신러닝 기술

    • 분류(Classification), 회귀(Regression), 군집(Clustering)

    4-1. 분류(Classification)

    • 레이블이 범주, 클래스 등 이산적 데이터일 경우
    • 유사한 특성을 가진 데이터들 끼리 미리 정의된 카테고리로 분류
    • 2개로 분류하는 것 : 이항분류(binary classification), 그 이상 : 다항분류(multi-class classification)
    • 대중적 분류 알고리즘 : 나이브 베이즈(Naive Bayes)

    4-2. 회귀(Regression)

    • 레이블이 연속적인 수치형 데이터일 경우
    • 변수들 사이의 관계를 추정하기 위한 통계적인 방법
    • 학습데이터를 이용해 결과 값을 예측하는 것
    • 대중적인 회귀방법 : 로지스틱 회귀(Logistic Regression)

    4-3. 군집(Clustering)

    • 서로 비슷한 개체 집합을 동일한 그룹으로 그룹화하는 작업
    • 개체(카테고리)는 사전에 미리 정의되어 있지 않음
    • 대표적인 군집 알고리즘 : k-means 알고리즘

    4-4. 분류와 회귀의 차이점

    분류 : 일정한 기준에 따라 명백하게 구분 짓는 것
    회귀 : 오차 제곱의 합을 최소화하는 직선을 긋는 작업, 따라서 명확히 직선으로 구별되는 것이 아님

    728x90
    반응형