목차
728x90
반응형
1. 빅데이터 기술 및 제도
1. 빅데이터 플랫폼
- 빅데이터 플랫폼 : 빅데이터 수집, 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경
1-1. 빅데이터 플랫폼의 등장배경
- 비즈니스 요구사항 변화
- 빠른 의사결정 보다 장기적이고 전략적인 접근 필요
- 데이터 규모와 처리 복잡도 증가
- 데이터 구조의 변화와 신속성 요구
- 데이터 분석 유연성 증대
- 인공지능 기술 발전으로 다양한 방법론을 통해 텍스트, 음성, 이미지 등 분석 가능
1-2. 빅데이터 플랫폼의 기능
- 컴퓨팅 부하 발생
- 저장 부하 발생
- 네트워크 부하 발생
1-3. 빅데이터 플랫폼의 구조
소프트웨어 계층
- 데이터 처리 및 분석 엔진 : 데이터를 처리하고 분석
- 데이터 수집 및 정제 모듈 : 빅데이터 분석 엔진을 위한 데이터를 수집하고 정제
- 서비스 관리 모듈 : 소프트웨어 계층에서 제공하는 서비스를 관리
- 사용자 관리 모듈: 사용자를 관리
- 모니터링 모듈 : 플랫폼 및 인프라스트럭처 서비스 사용성과 성능을 모니터링
- 보안 모듈 : 소프트웨어 계층의 보안을 관리
플랫폼 계층
- 사용자 요청 파싱 : 사용자가 요청한 내용을 파싱
- 작업 스케줄링 모듈 : 사용자 애플리케이션 실행 작업을 스케줄링
- 데이터 및 자원 할당 모듈 : 사용자 애플리케이션을 실행하는 데이터와 자원 할당
- 프로파일링 모듈 : 자원 및 애플리케이션을 프로파일링 또는 시뮬레이션
- 데이터 관리 모듈 : 사용자 데이터를 관리
- 자원 관리 모듈 : 인프라스트럭처 자원 관리
- 서비스 관리, 사용자 관리, 모니터링, 보안 모듈
인프라스트럭처 계층
- 자원 배치 모듈 : 사용자에게 제공할 자원 배치
- 노드 관리 모듈 : 인프라스트럭처 내의 노드 관리
- 데이터 관리 모듈 : 인프라스트럭처 내의 스토리지 관리
- 네트워크 관리 모듈 : 인프라스트럭처 냉외의 네트워크 관리
- 사용자 요청 파싱, 서비스 관리, 사용자 관리, 모니터링, 보안 모듈
2. 빅데이터 처리기술
2-1. 빅데이터 처리과정과 요소기술
- 생성 -> 수집 -> 저장(공유) -> 처리 -> 분석 -> 시각화
2-2. 빅데이터 수집
- 크롤링
- 로그 수집기
- 센서 네트워크
- RSS Reader/Open API
- ETL 프로세스 : 다양한 원천 데이터를 취합해 추출, 공통된 형식으로 변환하여 적재하는 과정
2-3. 빅데이터 저장
NoSQL
- 기존의 RDBMS 트랜잭션 속성인 원자성, 일관성, 독립성, 지속성 유연하게 적용
공유 데이터 시스템
- 일관성, 가용성, 분할 내성 중에서 최대 2개의 속성만 보유할 수 있음 (CAP이론)
병렬 데이터베이스 관리 시스템
분산 파일 시스템
네트워크 저장 시스템
2-4. 빅데이터 처리
분산 시스템과 병렬 시스템
- 분산 시스템 : 네트워크 상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술
- 병렬 시스템 : 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술, 분할된 작업을 동시에 처리하여 속도 빠름
분산 병렬 컴퓨팅
- 분산 시스템과 병렬 시스템을 아우르는 개념
- 다수의 독립된 컴퓨팅 자원을 네트워크 상에 연결하여 미들웨어를 이용해 하나의 시스템으로 동작하게 하는 기술
- 고려사항
- 전체 작업의 배분 문제
- 각 프로세서에서 계산된 중간 결과물을 프로세서 간 주고받는 문제
- 서로 다른 프로세서 간 동기화 문제
하둡
- 분석 처리 환경에서 대용량 데이터 처리 및 분석 지원
아파치 스파크
- 실시간 분산형 컴퓨팅 플랫폼
- 하둡보다 처리 속도가 빠름
맵리듀스
- 효과적인 병렬 및 분산 처리 지원
- 처리 단계 : input -> split -> map -> shuffle -> reduce
2-5. 빅데이터 분석
데이터 분석 방법의 분류
- 탐구 요인 분석 : 상호 관계를 파악하여 분석
- 확인 요인 분석 : 통계적 기법을 통해 분석
데이터 분석 방법
- 분류, 군집화, 기계학습, 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 리얼리티 마이닝, 소셜 네트워크 분석, 감성 분석
3. 빅데이터와 인공지능
3-1. 인공지능
인공지능 정의
- 기계가 지능화하는 노력이며, 지능화란 객체가 환경에서 적절히, 그리고 예지력을 갖고 작동하도록 하는 것
- 사람이 생각하고 판단하는 사고 구조를 구축하려는 전반적인 노력
- 머신러닝과 딥러닝을 혼재하여 사용
머신러닝
- 인공지능의 연구 분야 중 하나
- 인간의 학습능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법
딥러닝
- 기계학습 방법 중 하나
- 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 기법
- 깊은 구조에 의해 엄청난 양의 데이터를 학습
기계학습의 종류
- 지도학습, 비지도학습, 준지도학습, 강화학습
기계학습 방법에 따른 인공지능 응용분야
- 지도학습 : 분류모형, 회귀모형
- 비지도학습 : 군집분석, 오토인코더, 생성적 적대 신경망
- 강화학습 : 강화학습
3-2. 인공지능 데이터 학습의 진화
- 전이학습 : 기존의 학습된 모델의 지식을 새로운 문제에 적용하여 학습을 빠르고 효율적으로 수행
- 전이학습 기반 사전학습모형 : 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식
- BERT : 2018년 구글에서 발표한 언어인식 사전학습모형, 확보된 언어 데이터의 추가 학습을 통한 신속한 학습 가능
3-3. 빅데이터와 인공지능의 관계
- 인공지능을 위한 학습 데이터 확보
- 학습데이터의 애노테이션 작업
- 많은 데이터 확보 후, 애노테이션을 통해 학습이 가능한 데이터로 가공
- 애노테이션 작업을 위한 도구로써의 인공지능
* 애노테이션 : 데이터상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이 무엇을 학습하여야 하는지 알려주는 표식 작업
3-4. 인공지능의 기술동향
- 기계학습 프레임워크 보급 확대
- 생성적 적대 신경망(GAN)
- 오토인코더(Auto-encoder)
- 설명 가능한 인공지능(XAI)
- 기계학습 자동화(AutoML)
3-5. 인공지능의 한계점과 발전 방향
- 국내시장의 한계 : 인공지능 개발을 위한 데이터 확보 및 중요성에 대한 인식 부족
- 인공지능의 미래
- 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 경제의 모습이 될 것
- 마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업 확산
4. 개인정보 개요
4-1. 개인정보의 정의와 판단 기준
개인정보의 정의
- 살아있는 개인에 관한 정보, 개인을 알아볼 수 있는 정보
- 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보 포함
개인정보의 판단 기준
- 생존하는 '개인에 관한' 정보
- '정보'의 내용, 형태 등은 제한이 없음
- 개인을 '알아볼 수 있는' 정보여야 함
4-2. 개인정보의 이전
- 개인정보의 처리 위탁 : 개인정보처리자의 업무를 처리할 목적으로 제3자에게 이전되는 것
- 개인정보의 제3자 제공 : 해당 정보를 제공받은 자의 고유한 업무를 처리할 목적 및 이익을 위하여 개인정보가 이전되는 것
4-3. 개인정보의 보호
개인정보의 보호조치
- 조직 내부의 정보보안의 방침과 개인정보보호법에 위배되지 않도록 개인정보보호 가이드라인 점검
빅데이터 개인정보보호 가이드라인(방송통신위원회)
- 비식별화, 투명성 확보, 재식별 시 조치, 민감정보 및 비밀정보 처리, 기술적.관리적 보호조치
개인정보 보호를 위한 고려사항
4-4. 개인정보보호 관련 법률
- 데이터 3법 : 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률
5. 개인정보 법.제도
5-1. 개인정보 보호법
개인정보보호법의 개요
- 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지
개인정보의 범위
개인정보의 처리 위탁
개인정보의 제3자 제공
비식별 개인정보의 이전
- 정보주체 또는 제3자의 이익을 부당하게 침해할 우려가 있는 경우 제외
5-2. 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)
정보통신망법의 개요
- 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관해 규정한 법률
개인정보의 처리 위탁
5-3. 신용정보의 이용 및 보호에 관한 법률(신용정보보호법)
신용정보보호법의 개요
신용정보의 범위 : 금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 대 필요한 정보
- 특정 신용정보주체를 식별할 수 있는 정보
- 신용정보주체의 거래내용을 판단할 수 있는 정보
- 신용정보주체의 신용도를 판단할 수 있는 정보
- 신용정보주체의 신용거래능력을 판단할 수 있는 정보
개인신용정보
- 신용정보 중 개인의 신용도와 신용거래능력 등을 판단할 때 필요한 정보
개인신용정보의 처리 위탁
개인신용정보의 제3자 제공
개인식별정보
- 생존하는 개인의 성명, 주소 및 주민등록번호, 여권번호, 운전면허번호 등 개인을 식별할 수 있는 정보
5-4. 2020년 데이터 3법의 주요 개정 내용
개인정보보호법
- 개인정보 관련 개념을 개인정보, 가명정보, 익명정보로 구분
- 가명정보를 통계 작성 연구, 공익적 기록 보존 목적으 처리할 수 있도록 허용
- 가명정보 이용 시 안전장치 및 통제 수단 마련
- 분산된 감독기관 개인정보보호위원회로 일원화
정보통신망법
- 개인정보보호 관련 사항을 개인정보보호법으로 이관
- 온라인상 개인정보보호 관련 규제 및 감독 주체를 개인정보보호위원회로 변경
신용정보보호법
- 가명정보 개념을 도입해 빅데이터 분석 및 이용의 법적 근거 마련
- 가명정보는 통계작성, 연구, 공익적 기록보존 등을 위해 신용정보 주체의 동의 없이 이용, 제공 가능
6. 개인정보 비식별화
6-1. 개인정보 비식별화의 개요
비식별 정보
비식별 조치
- 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하여 개인을 알아 볼 수 없도록 조치
비식별 정보의 활용
비식별 정보의 보호
- 비식별 정보를 처리하는 자가 해당 정보를 이용하는 과정에서 재식별하게 된 경우, 해당 정보를 즉시 처리중지하고 파기
6-2. 개인정보 비식별화 조치 가이드라인
- 단계 : 사전 검토 -> 비식별 조치 -> 적정성 평가 -> 사후 관리
- 개인정보 비식별화 조치 가이드라인의 조치방법
- 가명 처리 : 개인정보 중 주요 식별 요소를 다른 값으로 대체하는 방법
- 총계 처리 : 데이터의 총합 값을 보여주고 개별 값을 보여 주지 않는 방법
- 데이터 삭제 : 데이터 공유나 개방 목적에 따라 데이터 셋에 구성된 값 중 필요없는 값 또는 개인식별에 중요한 값을 삭제하는 방법
- 데이터 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법
- 데이터 마스킹 : 개인을 식별하는 데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법
7. 개인정보 활용
7-1. 데이터 수집의 위기 요인과 통제 방안
- 위기 요인 : 사생활 침해로 위기 발생
- 통제 방안 : 동의에서 책임으로 강화
7-2. 데이터 활용의 위기 요인과 통제 방안
- 위기 요인 : 책임원칙 훼손으로 위기 발생
- 통제 방안 : 결과 기반 책임 원칙을 고수
7-3. 데이터 처리의 위기 요인과 통제 방안
- 위기 요인 : 데이터 오용으로 위기 발생
- 통제 방안 : 알고리즘 접근을 허용
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅분기] 2. 빅데이터 탐색 - 데이터 전처리 (1) | 2024.04.03 |
---|---|
[빅분기] (0) | 2024.03.21 |
[빅분기] 1. 빅데이터 분석 기획 - 데이터 분석 계획(2) (0) | 2024.02.22 |
[빅분기] 1. 빅데이터 분석 기획 - 데이터 분석 계획(1) (1) | 2024.01.09 |
[빅분기] 1. 빅데이터 분석 기획 - 빅데이터의 이해(1) (1) | 2024.01.03 |