자격증/빅데이터분석기사

[빅분기] 1. 빅데이터 분석 기획 - 빅데이터의 이해(1)

gangee 2024. 1. 3. 11:32
728x90
반응형

1. 빅데이터 개요 및 활용

1. 데이터와 정보

1-1. 데이터의 구분

  • 정량적 데이터 : 주로 숫자로 이루어진 데이터
    • 정형, 반정형 데이터
    • 수치, 기호 등
    • 주로 객관적 내용
  • 정성적 데이터 : 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터
    • 비정형 데이터
    • 문자, 언어 등
    • 주로 주관적 내용

1-2. 데이터 유형

  • 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터
    • DBMS의 테이블에 저장되는 데이터 등
  • 반정형 데이터 : 데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터
    • JSON, XML, HTML, RDF 등
  • 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터
    • 동영상, 이미지, 음성, 문서, 메일 등

1-3. 데이터의 근원에 따른 분류

  • 가역 데이터 : 일정 수준 환원 가능한 데이터, 원본과 1:1관계
    • 활용분야 : 데이터 마트, 데이터 웨어하우스
  • 불가역 데이터 : 환원이 불가능한 데이터, 1:N, N:1, M:N의 관계
    • 활용분야 : 데이터 전처리, 프로파일 구성

1-4. 데이터의 기능, 지식창조 매커니즘

  • 암묵지 : 경험을 통해 개인에게 체계화 되어있으며, 외부에 표출 X, 전달과 공유가 어렵

  • 형식지 : 형상화된 유형의 지식, 전달과 공유가 쉬움

    • 공통화, 표출화, 연결화, 내면화
    1. 공통화 : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전시킴
    2. 표출화 : 암묵지가 구체화 되어 외부로 표현
    3. 연결화 : 형식지를 재분류하여 체계화
    4. 내면화 : 전달받은 형식지를 개인의 것으로 만듦

1-5. 지식의 피라미드

  • 데이터, 정보, 지식, 지혜는 인간의 사회활동 속에서 가치창출을 위한 일련의 프로세스로 연결되어 기능함

2. 데이터베이스

2-1. 데이터베이스 관리 시스템(DataBase Management System)

  • 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
    • 관계형 DBMS : 데이터를 열과 행을 이루는 테이블로 표현하는 모델
    • 객체지향 DBMS : 정보를 객체 형태로 표현하는 모델
    • 네트워크 DBMS : 그래프 구조를 기반으로 하는 모델
    • 계층형 DBMS : 트리 구조를 기반으로 하는 모델
  • SQL
    • 데이터베이스에 접근할 때 사용하는 언어
    • 단순한 질의 기능뿐만 아니라 데이터 정의와 조작기능을 갖추고 있음

2-2. 데이터베이스의 특징

  • 통합, 저장, 공용, 변화 데이터
  1. 통합된 데이터 : 동일한 데이터 중복 저장 X
  2. 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 데이터 저장
  3. 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터 활용
  4. 변화되는 데이터 : 데이터 지속적 갱싱, 현재의 정확한 데이터 유지

2-3. OLTP, OLAP

  1. OLTP(OnLine Transaction Processing)
  • 호스트 컴퓨터와 온라인으로 접속된 여러 단말기 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
  • 데이터 갱신 위주

2. OLAP(OnLine Analytical Processing)

  • 정보 위주의 분석 처리를 하는 것
  • 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 있게 하는 기술
  • 데이터 조회 위주

2-4. 데이터 웨어하우스(DW:Data Warehouse)

  • 사용자의 의사결정에 도움을 주기 위하여 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
  • 데이터 웨어하우스 특징
    • 주제지향성, 통합성, 시계열성, 비휘발성
  • 데이터 웨어하우스 구성
    • 데이터 모델, ETL, ODS, DW 메타데이터, OLAP, 데이터마이닝 등

3. 빅데이터 개요

3-1. 빅데이터 등장과 변화

  1. 등장 배경
    • 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출
    • 시장, 사업방식, 사회, 정부 등에서 변화와 혁신 주도
  2. 변화
    1. 사전 처리 -> 사후 처리
    2. 표본조사 -> 전수조사
    3. 질 -> 양
    4. 인과관계 -> 상관관계

3-2. 빅데이터의 특징

  • 가트너 3V : Volume(규모), Variety(유형), Velocity(속도)
    • 2V : Value(가치), Veracity(품질)
  • 전통 데이터 - 중앙집중식 처리, 빅데이터 - 분산 처리

3-3. 빅데이터의 활용

  • 구성요소 : 자원, 기술, 인력
    1. 자원 : 빅데이터
    2. 기술 : 빅데이터플랫폼(데이터 저장, 처리, 분석, 시각화)
    3. 인력 : 데이터사이언티스트
  • 테크닉 : 연관규칙학습, 유형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크 분석

4. 빅데이터의 가치

4-1. 빅데이터의 기능과 효과

  • 빅데이터를 활용하는 기존 사업자에게 경쟁우위 제공
  • 알고리즘 기반으로 의사결정 지원
  • 투명성을 높여 R&D 및 관리 효율성 제고

4-2. 빅데이터의 가치 측정의 어려움

  1. 데이터 활용 방식
  2. 가치 창출 방식
  3. 분석 기술 발전
  4. 데이터 수집 원가

4-3. 빅데이터의 영향

  • 기업 : 혁신과 경쟁력 강화, 생산성 향상의 근간이 됨
  • 정부 : 환경 탐색과 상황 분석, 미래 대응 수단 제공
  • 개인 : 활용 목적에 따라 스마트화를 통해 영향을 줌

5. 데이터 산업의 이해

5-1. 데이터 산업의 진화

  1. 데이터 처리 시대
    • 데이터는 업무 처리의 대상으로 새로운 가치 제공 X
  2. 데이터 통합 시대
    • 데이터 모델링, 데이터베이스 관리 시스템 등장
    • 데이터 웨어하우스 도입
  3. 데이터 분석 시대
    • 소셜네트워크 이용 확산 등으로 인해 데이터 폭발적 증가
    • 하둡, 스파크 등의 빅데이터 기술 등장
    • 인공지능 기술 상용화
  4. 데이터 연결 시대
    • 연결은 네트워크를 만들고, 네트워크는 새로운 비즈니스 모델 생성
  5. 데이터 권리 시대
    • 자신의 데이터에 대한 권리 보유, 스스로 행사할 수 있어야 한다는 마이데이터 등장

5-2. 데이터 산업의 구조

  1. 인프라 영역
    • 데이터 수집, 저장, 분석, 관리 담당
    • 하드웨어 영역
    • 소프트웨어 영역
  2. 서비스 영역
    • 데이터 활용을 위한 교육 및 컨설팅 제공
    • 데이터 및, 가공한 정보 제공
    • 데이터 처리 담당

6. 데이터 조직 및 인력

6-1. 조직의 구성

  • 집중형, 기능형, 분산형
  1. 집중형
    • 분석 업무 : 별도의 전담조직에서 수행
    • 현업 부서, 분석 업무 중복/이원화 가능성 O
    • 전사 분석과제의 전략적 중요도에 따라 우선순위 정함
  2. 기능형
    • 분석 업무 : 현업 부서에서 직접 수행
    • 전사적 관점에 전략적 핵심 분석 어려움
  3. 분산형
    • 분석 업무 : 전문 인력을 배치하여 수행
    • 분석 결과 : 현업에 빠르게 적용 가능
    • 전사 차원에서 분석과제의 우선순위 정함
  • 필요 역량
    • 비즈니스를 이해하고 있는 인력
    • 분석에 필요한 컴퓨터공학적인 기술을 이해하고 있는 인력
    • 분석 지식을 갖춘 인력
    • 조직 내 분석 문화 확산을 위한 변화 관리 인력

6-2. 데이터 사이언스 역량

  1. 데이터 사이언스의 영역 : 분석적 영역, 데이터 처리 관련 IT 영역, 비즈니스 컨설팅 영역
  2. 데이터 사이언 실형을 위한 인문학적 요소
    • 스토리텔링, 커뮤니케이션, 창의력, 직관력, 비판적 시각, 열정
  3. 한계
    • 가정과 같은 인간의 해석 개입

6-3. 데이터 사이언티스트

  • 데이터에 대한 이론적 지식, 숙련된 분석 기술, 통찰력, 전달력, 협업 능력을 갖춘 데이터 분야 전문가
  1. Hard Skill
    • 빅데이터에 대한 이론적 지식
    • 분석 기술에 대한 숙련
  2. Soft Skill
    • 통찰력 있는 분석
    • 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
    • 다분야 간 협력 : 커뮤니케이션
728x90
반응형