728x90

Python/Analysis 8

[Analysis] 결측치 처리

결측치(missing value) 수집된 데이터 셋 중 관측되지 않은 특정 확률변수의 값 결측치 발생 시 잘못된 분석 결과를 낳거나 분석 시 코드 대입 경우 에러가 발생할 수 있음 결측치 처리 방법 1. 결측치 제거 결측치를 포함하고 있는 행이나 열을 제거하는 방법 # dropna를 이용한 예시 import pandas as pd # 예시 데이터 프레임 생성 data = {'A': [1, 2, None, 4, 5], 'B': [None, 6, 7, 8, 9], 'C': [10, 11, 12, 13, 14]} df = pd.DataFrame(data) # 결측치가 있는 행을 제거하기 cleaned_df = df.dropna() # 결과 출력 print("원본 데이..

Python/Analysis 2024.04.12

[Analysis] CNN

CNN Convolutional Neural Network 데이터로부터 직접 학습하는 딥러닝 신경망 구조 주로 이미지 인식 및 처리에 사용 역전파 알고리즘을 사용하여 가중치를 학습하고 주로 분류 및 객체 검출과 같은 작업에 적용 구성 : Convolutional Layer(컨볼루션 레이어), Pooling Layer(풀링 레이어), Fully Connected Layer(완전 연결 레이어) Convolutional Layer 입력 이미지에 대해 필터를 저굥ㅇ하여 특징맵 생성 각 필터는 입력 이미지에서 특정한 특징을 감지하도록 학습 됨 (에지, 질감, 색상 등과 같은 시각적 패턴) 컨볼루션 연산을 통해 이미지의 공간 정보를 보존하면서 특징 추충 Pooling Layer 특징맵의 크기를 줄이고 연산량을 감소..

Python/Analysis 2024.04.11

[Analysis] PCA - 주성분 분석

PCA(Principal Component Analysis) 고차원 데이터 집합이 주어졌을 때 원래의 고차원 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 차원 축소 문제를 해결하는 알고리즘 중 하나 선형 회귀와 완전히 다른 알고리즘 머신러닝, 데이터마이닝, 통계분석, 노이즈 제거 등 다양한 분야에서 널리 쓰임 수학적 의미 데이터가 직교 투영할 때 정과 표면 사이의 거리의 제곱의 합이 최소가 되는 더 낮은 차원의 표면 또는 직선을 찾는 것 n차원 데이터 -> k차원 데이터로 축소 (k

Python/Analysis 2024.03.18

[Analysis] Machine Learning 이란?

머신러닝(Machine Learning) 인공지능의 하위 분야 데이터를 통해 기계가 스스로 학습 모델을 도출하고, 새로운 데이터에 대한 추론과 패턴 예측에 활용 1. 머신러닝 관련 용어 데이터(data) : 문서, 사진, 음성, 동영상, 데이터베이스 등 특징(feature) : 각각의 아이템을 설명하는 데 사용하는 구분 가능한 특성 또는 특징의 개수 특징 벡터(feature vector) : 어떤 대상을 표현하는 특징으로 이루어진 n차원의 벡터 특징 추출(feature extraction) : 예측에 영향을 주는 주요 특징 벡터 추출(차원 감소기법을 사용하기도 함[PCA분석]) 학습 데이터 셋(training dataset) : 학습에 사용하는 데이터의 집합 2. 머신러닝 흐름도 학습과 예측 단계로 구성..

Python/Analysis 2023.12.27

[Analysis] Naive Bayes를 이용한 데이터 분석

베이즈 정리 (Bayes' theorem) 사전확률과 사후확률 사이의 관계를 조건부 확률을 이용해서 계산하는 확률이론 나이브 베이즈 정리 베이즈 정리에 기반한 통계적 분류 기법 from sklearn.model_selection import train_test_split from sklearn.navie_bayes import GaussianNB import pandas as pd import numpy as np sklearn.model_selection : scikit-learn 패키지 중 클래스를 나눌 때, 함수를 통해 train/test를 나눌 때, 모델 검증에 사용되는 서브 패키지 train_test_split : 배열 또는 행렬을 임의의 train 및 test 하위 집합으로 분할하는 모듈 sk..

Python/Analysis 2022.11.20

[Analysis] scikit-learn 선형회귀분석

선형회귀의 종류 1. 단순선형회귀 하나의 x값만으로 y값을 설명할 수 있을 때 회귀직선이 일차함수그래프임 x는 독립변수, y는 종속변수 (x값에 따라 y값이 달라짐) 2. 다중선형회귀 x값이 여러 개 필요할 때 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 방법 단순회귀분석을 확장한 것 Python package 가져오기 및 matplotlib출력 옵션 설정 from sklearn import linear_model import numpy as np import pandas as pd import matplotlib import matplotlib.pyplot as plt %matplotlib inline matplotlib.style.use('ggplot') linear_model : s..

Python/Analysis 2022.11.08

[Analysis] CSV파일 활용하기

1. CSV 파일 읽기 import csv f = open('a.csv') #a라는 csv파일을 연다 data = csv.reader(f) for row in data: print(row) f.close() #파일을 닫아준다 - open() 함수로 파일을 열어 f에 저장 - f를 reader()함수에 넣어 data라는 reader 객체 생성 - for문을 이용하여 data 출력 - f.close를 이용하여 파일 닫기 2. header 추출하기 import csv f = open('a.csv') data = csv.reader(f) header = next(data) print(header) f.close() - 데이터의 첫 번째 줄에 위치한 것이 헤더 - next() 함수는 첫 번째 데이터 행을 읽으면서..

Python/Analysis 2022.10.12
반응형