728x90

분석 12

[정처기] 트랜잭션 분석 & CRUD 분석

트랜잭션(Transaction)논리적 기능을 수행하기 위한 작업의 단위 또는 한꺼번에 모두 수행되어야 할 일련의 연산트랜잭션의 특성원자성, 일관성, 독립성, 영속성Atomicity : Commit, Rollback, 모두 반영 or 전혀 반영 안됨 ⭐⭐Consistency : 실행 성공적으로 완료하면 일관성있는 데이터베이스로 변환Isolation(독립성, 격리성, 순차성) : 동시 병행 시 다른 연산 X ⭐Durability(영속성, 지속성) : 고장나도 영구적 반영1. CRUD 분석프로세스와 테이블 간에 CRUD 매트릭스를 만들어서 트랜잭션을 분석하는 것1-1. CRUD 매트릭스 ⭐2차원 형태의 표Row : 프로세스, Column : 테이블행과 열이 만나는 위치 : 프로세스가 테이블에 발생시키는 변화 ..

[Project] 한국어 대화 분류 및 요약 - 프로젝트 계획

프로젝트 계획1. 프로젝트 필요성 및 의의최근 몇 년간 자연어 처리를 활용한 AI 대화 서비스, 음성 제어 서비스의 수요가 늘고 있으며, 계속해서 발전되고 있음자연어를 대상으로 하는 의도 분류는 많은 연구가 진행되고 있지만 일상 대화의 주제를 분류하는 연구는 많지 않음대화 데이터를 주제별로 분류하였을 경우 어떤 주제에 어떤 대화가 이루어지는지 파악할 수 있음현재, 생성형 AI는 방대한 양의 데이터를 학습하고 있어 특정 도메인을 지정하지 않으면 AI가 대화의 맥락을 이해할 때 어려움이 있을 수 있음대표적인 현상 : HallucinationHallucinationAI가 정보를 처리하는 과정에서 발생하는 오류내재적 현상 : 맥락과 관련 없는 내용을 출력외재적 현상 : 출처가 명확하지 않은 내용을 출력2. 프로..

[빅분기] 2024년 빅데이터분석기사 시험 일정

2024년 빅데이터분석기사 시험 일정 회차 접수기간 시험일 사전점수 결과발표 제 8회 필기 3.4~8 4.6 4.19~23 4.26 실기 5.20~24 6.22 7.5~9 7.12 제 9회 필기 8.5~9 9.7 9.20~24 9.27 실기 10.28~11.1 11.30 12.13~17 12.20 - 원서접수 시간 : 접수 시작일 10:00 ~ 접수 마감일 18:00 - 결과발표 시간 : 10:00 - 사전점수 공개 : 공개 시작일 16:00

[Analysis] 결측치 처리

결측치(missing value) 수집된 데이터 셋 중 관측되지 않은 특정 확률변수의 값 결측치 발생 시 잘못된 분석 결과를 낳거나 분석 시 코드 대입 경우 에러가 발생할 수 있음 결측치 처리 방법 1. 결측치 제거 결측치를 포함하고 있는 행이나 열을 제거하는 방법 # dropna를 이용한 예시 import pandas as pd # 예시 데이터 프레임 생성 data = {'A': [1, 2, None, 4, 5], 'B': [None, 6, 7, 8, 9], 'C': [10, 11, 12, 13, 14]} df = pd.DataFrame(data) # 결측치가 있는 행을 제거하기 cleaned_df = df.dropna() # 결과 출력 print("원본 데이..

Python/Analysis 2024.04.12

[Thesis] Data Analysis - 빅데이터 분석에 기반한 아동학대의 이해

서론 인공지능 기술을 이용한 암 진단의 중요성을 강조 본론 딥러닝 알고리즘을 활용하여 의료 영상 데이터를 분석하는 방법 제시 및 이를 통해 얻은 새로운 접근 방식의 성능을 보여줌 종양의 특징을 식별하고 분류하는 과정을 설명하며, 실험 결과를 통해 효과 입증 결론 새로운 접근 방식이 기존의 방법보다 더 높은 정확도를 가짐을 보여줌 의료 분야에서 인공지능 기술의 활용 가능성을 강조하며, 향후 연구 방향에 대한 제언 제시 출처 논문 이름 : 빅데이터 분석에 기반한 아동학대의 이해 저자 : 배정호, 범은애 출처 : 빅데이터 분석에 기반한 아동학대의 이해 -머신러닝 알고리즘 개발 기초연구-

[빅분기] 2. 빅데이터 탐색 - 데이터 전처리

데이터 종류 1. 질적자료 명목자료 : 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료 서열자료 : 명목자료와 비슷하나 수치나 기로가 서열을 나타내는 자료 2. 수치자료 구간자료 : 명목, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수 간의 관계가 산술적인 의미를 가지는 자료 비율자료 : 명목, 서열, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료 데이터 정제 1. 데이터 정제 과정 수집, 변환, 저장, 품질확인, 관리 결측값 1. 결측 데이터 종류 완전 무작위 결측 : 결측데이터가 관측된, 관측되지 않은 데이터 모두 아무 연관이 없는 경우 무작위 결측 : 관측된 데이터와 연관 O, 관측되지 않은 데이터와 연관 X..

[Thesis] Data Analysis - Temporal Fusion Transformers와 심층 학습 방법을 사용한 다층 수평 시계열 데이터 분석(학술)

서론 다층 수평 예측 : 기계 학급에서 시계열 데이터를 사용한 중요한 문제 중 하나 시계열 데이터는 다차원 형태를 가지며 다양한 정보를 포함하기 때문에 전통적인 방법을 사용하면 정확한 예측 어렵 시계열 정보는 실수형, 범주형 등의 이질적인 형태를 가지며 서로의 관계에 대한 정보 매우 적게 제공 본 논문은 이러한 한계점을 보완하고자 함 본론 실생활과 밀접한 관련이 있는 3가지 공개 데이터를 이용하여 실험 진행 3가지 공개 데이터 : 주식 데이터, 미세먼지 데이터, 전기 변압기 데이터 기존 시계열 예측 모델인 단층 LSTM모델, 다층 LSTM모델, 1D CNN 모델 과 TFT 방법을 이용해 각각의 정확도 비교 TFT 방법과 기존 방법들의 성능 차이 매우 큼 다층 LSTM 모델의 MSE 값은 약 6.5배 차이..

[Thesis] Data Analysis - 빅데이터 기반 프로야구 데이터 분석(저널)

서론 최근 대한민국에서 프로야구가 가장 핫한 스포츠로 떠오르고 있으며, 이를 바탕으로 특정 프로야구단을 응원하는 팬들의 증가로 인한 데이터 분석의 필요성이 대두 됨 본론 관련 기술 : 크롤링, 셀레늄, 하이브, R 등 데이터 수집 및 처리 크롤링, 셀레늄 : 기사 데이터 수집, KBO 사이트를 통해 프로야구 성적 및 관중 데이터 추출 데이터 처리 : 하이브 이용하여 처리, 필요에 따라 데이터 정형화 분석 결과 특정 프로야구단의 기사 빈도 분석 데이터를 로드하여 그래프로 표현하였으며, 2013년 후반에 특정 프로야구단 관련 기사가 높은 빈도로 나타남 특정 프로야구단의 워드클라우드 분석 KoNLP 형태소 분석 및 wordcloud 패키지를 사용하여 특정 프로야구단 관련 기사의 주요 키워드 시각화 프로야구 성..

[Thesis] Data Analysis - 최적의 병원입지선정을 위한 분석방법 연구(KCI)

서론 한계 병원입지선정의 중요성과 어려움 정보의 어려운 접근성과 복잡성 건강보험심사평가원의 노력과 정보 서비스의 한계 한계 극복 병원입지선정 정보의 구성요소 추출과 분석모형 설계 필요성 강조 본론 병원입지선정 정보의 분석구조와 구성요소를 개선하고, 미래경영 예측이 가능한 정보를 제공하기 위한 연구 수행 가정된 사례(인천 구월1동 산부인과 병원)를 통해 사례연구 수행 의료수요 및 상주인구, 유동인구 등을 분석하여 최적 병원입지 선정의 필요성을 제시 병원입지선정 정보서비스의 확대와 국가적인 지원 필요성을 제언 결론 병원입지선정 정보의 정확성과 효용성이 보장되어야 함을 강조. 병원입지선정 정보의 구성요소 추출과 분석모형 설계를 통해 안정적인 의료 공급을 위한 미래예측 경영정보 제공이 가능함을 확인. 국가적인 ..

[Thesis] Data Analysis - 공공데이터를 활용한 초등학생 돌봄시설의 최적입지 선정(KCI)

서론 이 연구는 정부의 생활 SOC 확대 정책에 따라 기존 시설을 활용하여 초등학생 돌봄시설의 최적 입지를 선정하는 것을 목표로 함 최적 입지 선정을 위해 공간최적화 모델과 공공데이터 활용 p-median 모델을 통해 최종 돌봄시설 선택 본론 서울시 송파구를 대상으로 실험 수행 후보시설의 입지기준을 공공데이터를 활용하여 평가 100M×100M 격자를 기본 공간단위로 설정하여 후보시설의 입지기준을 평가하고, 최종 돌봄시설을 선정 결론 생활 SOC 확대 정책을 고려하여 초등학생 돌봄시설의 최적 입지를 선정하는데 성공 데이터의 다양한 형식과 자료원을 고려하는 과정에서 입지 기준의 미흡한 부분 발생 향후, 미흡한 부분을 보완하기 위해 수요자들의 의견을 반영할 수 있는 데이터 확장이 필요 출처 논문 이름 : 공공..

반응형