자격증/빅데이터분석기사
[빅분기] 1. 빅데이터 분석 기획 - 빅데이터의 이해(1)
gangee
2024. 1. 3. 11:32
728x90
반응형
1. 빅데이터 개요 및 활용
1. 데이터와 정보
1-1. 데이터의 구분
- 정량적 데이터 : 주로 숫자로 이루어진 데이터
- 정형, 반정형 데이터
- 수치, 기호 등
- 주로 객관적 내용
- 정성적 데이터 : 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터
- 비정형 데이터
- 문자, 언어 등
- 주로 주관적 내용
1-2. 데이터 유형
- 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터
- DBMS의 테이블에 저장되는 데이터 등
- 반정형 데이터 : 데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터
- JSON, XML, HTML, RDF 등
- 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터
- 동영상, 이미지, 음성, 문서, 메일 등
1-3. 데이터의 근원에 따른 분류
- 가역 데이터 : 일정 수준 환원 가능한 데이터, 원본과 1:1관계
- 활용분야 : 데이터 마트, 데이터 웨어하우스
- 불가역 데이터 : 환원이 불가능한 데이터, 1:N, N:1, M:N의 관계
- 활용분야 : 데이터 전처리, 프로파일 구성
1-4. 데이터의 기능, 지식창조 매커니즘
암묵지 : 경험을 통해 개인에게 체계화 되어있으며, 외부에 표출 X, 전달과 공유가 어렵
형식지 : 형상화된 유형의 지식, 전달과 공유가 쉬움
- 공통화, 표출화, 연결화, 내면화
- 공통화 : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전시킴
- 표출화 : 암묵지가 구체화 되어 외부로 표현
- 연결화 : 형식지를 재분류하여 체계화
- 내면화 : 전달받은 형식지를 개인의 것으로 만듦
1-5. 지식의 피라미드
- 데이터, 정보, 지식, 지혜는 인간의 사회활동 속에서 가치창출을 위한 일련의 프로세스로 연결되어 기능함
2. 데이터베이스
2-1. 데이터베이스 관리 시스템(DataBase Management System)
- 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
- 관계형 DBMS : 데이터를 열과 행을 이루는 테이블로 표현하는 모델
- 객체지향 DBMS : 정보를 객체 형태로 표현하는 모델
- 네트워크 DBMS : 그래프 구조를 기반으로 하는 모델
- 계층형 DBMS : 트리 구조를 기반으로 하는 모델
- SQL
- 데이터베이스에 접근할 때 사용하는 언어
- 단순한 질의 기능뿐만 아니라 데이터 정의와 조작기능을 갖추고 있음
2-2. 데이터베이스의 특징
- 통합, 저장, 공용, 변화 데이터
- 통합된 데이터 : 동일한 데이터 중복 저장 X
- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 데이터 저장
- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터 활용
- 변화되는 데이터 : 데이터 지속적 갱싱, 현재의 정확한 데이터 유지
2-3. OLTP, OLAP
- OLTP(OnLine Transaction Processing)
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말기 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
- 데이터 갱신 위주
2. OLAP(OnLine Analytical Processing)
- 정보 위주의 분석 처리를 하는 것
- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 있게 하는 기술
- 데이터 조회 위주
2-4. 데이터 웨어하우스(DW:Data Warehouse)
- 사용자의 의사결정에 도움을 주기 위하여 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
- 데이터 웨어하우스 특징
- 주제지향성, 통합성, 시계열성, 비휘발성
- 데이터 웨어하우스 구성
- 데이터 모델, ETL, ODS, DW 메타데이터, OLAP, 데이터마이닝 등
3. 빅데이터 개요
3-1. 빅데이터 등장과 변화
- 등장 배경
- 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출
- 시장, 사업방식, 사회, 정부 등에서 변화와 혁신 주도
- 변화
- 사전 처리 -> 사후 처리
- 표본조사 -> 전수조사
- 질 -> 양
- 인과관계 -> 상관관계
3-2. 빅데이터의 특징
- 가트너 3V : Volume(규모), Variety(유형), Velocity(속도)
- 2V : Value(가치), Veracity(품질)
- 전통 데이터 - 중앙집중식 처리, 빅데이터 - 분산 처리
3-3. 빅데이터의 활용
- 구성요소 : 자원, 기술, 인력
- 자원 : 빅데이터
- 기술 : 빅데이터플랫폼(데이터 저장, 처리, 분석, 시각화)
- 인력 : 데이터사이언티스트
- 테크닉 : 연관규칙학습, 유형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크 분석
4. 빅데이터의 가치
4-1. 빅데이터의 기능과 효과
- 빅데이터를 활용하는 기존 사업자에게 경쟁우위 제공
- 알고리즘 기반으로 의사결정 지원
- 투명성을 높여 R&D 및 관리 효율성 제고
4-2. 빅데이터의 가치 측정의 어려움
- 데이터 활용 방식
- 가치 창출 방식
- 분석 기술 발전
- 데이터 수집 원가
4-3. 빅데이터의 영향
- 기업 : 혁신과 경쟁력 강화, 생산성 향상의 근간이 됨
- 정부 : 환경 탐색과 상황 분석, 미래 대응 수단 제공
- 개인 : 활용 목적에 따라 스마트화를 통해 영향을 줌
5. 데이터 산업의 이해
5-1. 데이터 산업의 진화
- 데이터 처리 시대
- 데이터는 업무 처리의 대상으로 새로운 가치 제공 X
- 데이터 통합 시대
- 데이터 모델링, 데이터베이스 관리 시스템 등장
- 데이터 웨어하우스 도입
- 데이터 분석 시대
- 소셜네트워크 이용 확산 등으로 인해 데이터 폭발적 증가
- 하둡, 스파크 등의 빅데이터 기술 등장
- 인공지능 기술 상용화
- 데이터 연결 시대
- 연결은 네트워크를 만들고, 네트워크는 새로운 비즈니스 모델 생성
- 데이터 권리 시대
- 자신의 데이터에 대한 권리 보유, 스스로 행사할 수 있어야 한다는 마이데이터 등장
5-2. 데이터 산업의 구조
- 인프라 영역
- 데이터 수집, 저장, 분석, 관리 담당
- 하드웨어 영역
- 소프트웨어 영역
- 서비스 영역
- 데이터 활용을 위한 교육 및 컨설팅 제공
- 데이터 및, 가공한 정보 제공
- 데이터 처리 담당
6. 데이터 조직 및 인력
6-1. 조직의 구성
- 집중형, 기능형, 분산형
- 집중형
- 분석 업무 : 별도의 전담조직에서 수행
- 현업 부서, 분석 업무 중복/이원화 가능성 O
- 전사 분석과제의 전략적 중요도에 따라 우선순위 정함
- 기능형
- 분석 업무 : 현업 부서에서 직접 수행
- 전사적 관점에 전략적 핵심 분석 어려움
- 분산형
- 분석 업무 : 전문 인력을 배치하여 수행
- 분석 결과 : 현업에 빠르게 적용 가능
- 전사 차원에서 분석과제의 우선순위 정함
- 필요 역량
- 비즈니스를 이해하고 있는 인력
- 분석에 필요한 컴퓨터공학적인 기술을 이해하고 있는 인력
- 분석 지식을 갖춘 인력
- 조직 내 분석 문화 확산을 위한 변화 관리 인력
6-2. 데이터 사이언스 역량
- 데이터 사이언스의 영역 : 분석적 영역, 데이터 처리 관련 IT 영역, 비즈니스 컨설팅 영역
- 데이터 사이언 실형을 위한 인문학적 요소
- 스토리텔링, 커뮤니케이션, 창의력, 직관력, 비판적 시각, 열정
- 한계
- 가정과 같은 인간의 해석 개입
6-3. 데이터 사이언티스트
- 데이터에 대한 이론적 지식, 숙련된 분석 기술, 통찰력, 전달력, 협업 능력을 갖춘 데이터 분야 전문가
- Hard Skill
- 빅데이터에 대한 이론적 지식
- 분석 기술에 대한 숙련
- Soft Skill
- 통찰력 있는 분석
- 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
- 다분야 간 협력 : 커뮤니케이션
728x90
반응형