728x90

Python 97

[Analysis] Naive Bayes를 이용한 데이터 분석

베이즈 정리 (Bayes' theorem) 사전확률과 사후확률 사이의 관계를 조건부 확률을 이용해서 계산하는 확률이론 나이브 베이즈 정리 베이즈 정리에 기반한 통계적 분류 기법 from sklearn.model_selection import train_test_split from sklearn.navie_bayes import GaussianNB import pandas as pd import numpy as np sklearn.model_selection : scikit-learn 패키지 중 클래스를 나눌 때, 함수를 통해 train/test를 나눌 때, 모델 검증에 사용되는 서브 패키지 train_test_split : 배열 또는 행렬을 임의의 train 및 test 하위 집합으로 분할하는 모듈 sk..

Python/Analysis 2022.11.20

[Visualization] Heatmap 그리기

matplotlib, seaborn, pandas 를 이용한 heatmap 그리기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.rcParams['figure.figsize'] = [10,8] sns.set(style='whitegrid', palette='pastel') data=sns.load_dataset('flights') data seaborn에 내장되어있는 데이터프레임 불러오기 data2 = data.pivot('year', 'month', 'passengers') data2.head() pivote() : 기존의 data 변수를 pivot시켜서 재형성한 새로운 pan..

[Visualization] seaborn으로 데이터 나타내기

seaborn 이란? matplotlib을 기반으로 하는 python 시각화 패키지 통계적 그래픽을 제공하는 고차원의 인터페이스 제공 seaborn 내장 데이터셋 이용하여 그래프 그리기 1. boxplot Boxplot : 가공하지 않은 자료를 그대로 이용하는 것이 아니라, 자료에서 얻어낸 최댓값, 최솟값을 보여주는 그래프 import seaborn as sns sns.set(style='whitegrid', palette='pastel') data = sns.load_dataset("tips") sns.set() : seaborn 스타일 옵션 설정 sns.load_dataset() : seaborn 내장 데이터셋 로드 'tips'는 pandas.DataFrame형의 변수 sns.boxplot(x='da..

[Analysis] scikit-learn 선형회귀분석

선형회귀의 종류 1. 단순선형회귀 하나의 x값만으로 y값을 설명할 수 있을 때 회귀직선이 일차함수그래프임 x는 독립변수, y는 종속변수 (x값에 따라 y값이 달라짐) 2. 다중선형회귀 x값이 여러 개 필요할 때 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 방법 단순회귀분석을 확장한 것 Python package 가져오기 및 matplotlib출력 옵션 설정 from sklearn import linear_model import numpy as np import pandas as pd import matplotlib import matplotlib.pyplot as plt %matplotlib inline matplotlib.style.use('ggplot') linear_model : s..

Python/Analysis 2022.11.08

[기초문법] pandas를 활용해 데이터 저장, 읽기

1. Pandas로 데이터 저장하기 csv 파일 저장하기 to_csv() 함수 사용 df.to_csv("sample.csv") excel 파일 저장하기 to_excel() 함수 사용 df.to_excel("sample.xlsx") 2. Pandas를 활용하여 csv 파일 읽기 import pandas as pd df = pd.read_csv('a.csv') read_csv() 함수에 csv파일명을 입력하면 파일을 읽어 와서 pandas dataframe으로 변환 read_csv() 함수 옵션 2-1. header '열 이름'이 되는 행을 지정 header = 0 은 기본 값 (0행을 지정) header = 0 : df = read_csv(file) header = None (행을 지정하지 않음) head..

Python/기초문법 2022.10.12

[Analysis] CSV파일 활용하기

1. CSV 파일 읽기 import csv f = open('a.csv') #a라는 csv파일을 연다 data = csv.reader(f) for row in data: print(row) f.close() #파일을 닫아준다 - open() 함수로 파일을 열어 f에 저장 - f를 reader()함수에 넣어 data라는 reader 객체 생성 - for문을 이용하여 data 출력 - f.close를 이용하여 파일 닫기 2. header 추출하기 import csv f = open('a.csv') data = csv.reader(f) header = next(data) print(header) f.close() - 데이터의 첫 번째 줄에 위치한 것이 헤더 - next() 함수는 첫 번째 데이터 행을 읽으면서..

Python/Analysis 2022.10.12

[Visualization] matplotlib를 이용한 기본 그래프 나타내기

matplotlib를 이용하여 기본적인 그래프를 나타내기 위해서는 matplotlib.pyplot을 사용하면 된다. import matplotlib.pyplot as plt import numpy as np x = np.arange(1,10) y = x*5 plt.plot(x,y) plt.show() - arrange( ) 함수는 값의 범위를 나타낸다. - plt.plot(x,y) 함수는 x 와 y 값의 리스트를 지정한다. - plt.show() 함수는 그래프를 나타내도록 한다. 위와 같이 코드를 입력하면 아래와 같은 그래프가 나타난다.

반응형