본문 바로가기

카테고리 없음

빅데이터분석기사 요약 1과목

반응형

https://youtu.be/2pzPpiNTaCk?si=LuQCKaNFaRxwY_xr

출처는 위와 같습니다

 

 

[1] 빅데이터의 이해

1 빅데이터 개요 및 활용

빅데이터의 특징

1. 데이터 정의

- 데이터: 있는 그대로의 객관적 사실. 가공되지 않은 상태

- 정보: 데이터로부터 가공된 자료

 

2. 빅데이터 출현 배경

- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 경제성 확보, 저장매체 가격 하락, 하둡 활용한 분산 컴퓨팅, 비정형 데이터 확산

 

3. 빅데이터 활용 위한 3대 요소 (인자기) - 이탈리아 축구 선수..

- 인력, 자원(데이터), 기술

 

4. 빅데이터 3V (가트너(세계적 기업) 정의)

- volume(규모): 데이터 양 증가 (구글 번역 서비스)

- variety(다양성): 데이터 유형 증가

- velocity(속도): 데이터 생성, 처리 속도 증가

- 그외 5V 요소

  - value(가치), veracity(신뢰성)

 

5. DIKW 피라미드

- 데이터(Data): 있는 그대로 사실 (A대리점 100만원)

- 정보(Information): Data 통해 패턴 인식 (A점이 싸다)

- 지식(Knowledge): 패턴 통해 예측 (A에서 사면 이득)

- 지혜(Wisdom): 창의적 산물 (A에서 사자)

 

6. 암묵지, 형식지간 상호작용

- 암묵지: 개인에게 습득되고 겉으로 드러나지 않음

- 형식지: 문서, 메뉴얼 등 형상화된 지식

  공표연내

  (1) 공통화: 암묵지 지식을 다른 사람에게 알려줌

  (2) 표출화: 암묵지 지식을 메뉴얼이나 문서로 전환

  (3) 연결화: 교재, 메뉴얼에 새로운 지식 추가

  (4) 내면화: 만들어진 교재, 메뉴얼에서 다른 사람의 암묵지 터득

 

7. 데이터베이스 정의

(1) DB: 구조에 맞게 조직화된 데이터 집합

  - 스키마: DB 구조, 제약조건 관한 전반적 명세

  - 인스턴스: 정의된 스키마에 따라 저장된 값

(2) DBMS: DB 관리, 접근 환경 제공하는 소프트웨어

 - 관계형 DBMS: 테이블로 정리 ex) oracle, mssql, mysql, mariadb

 - 객체지향 DBMS: 정보를 객체 형태로 정리

 - NoSQL DBMS: 비정형 데이터를 저장하고 처리 ex) hbase, mongodb, dynamodb, cassandra

 - sql: db 접근할 수 있는 하부 언어

   - 정의언어(ddl): create, alter, drop

   - 조작언어(dml): select, insert, delete, update

   - 제어언어(dcl): commit, rollback, grant, revoke

 

8. 데이터베이스 특징

- 공용 데이터: 여러 사용자가 다른 목적으로 데이터 공동 이용

- 통합된 데이터: 동일 데이터 중복되어 있지 않음

- 저장된 데이터: 저장 매체에 저장

- 변화되는 데이터: 계속 변해도 현재 정확한 데이터 유지(무결성)

-> 공통저변

 

9. 데이터베이스 구성요소 (빨리 찾는 방법)

- 메타데이터: 데이터 설명하는 데이터

- 인덱스: 정렬, 탐색을 위한 데이터 이름

 

10. 기업 활용 데이터베이스

- OLTP: 데이터 수시 갱신

- OLAP: 대화식으로 분석

- CRM: 고객

- SCM: 공급망 연결

- ERP: 자원

- BI: 리포트(지능) 중심 도구

- BA: 통찰력

- KMS: 지식(Knowledge)

 

빅데이터의 가치

1. 빅데이터 가치 산정이 어려운 이유

- 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음

- 기존 가치 없는 데이터도 새로운 분석기법으로 가치 창출

 

2. 빅데이터가 만들어내는 변화**

-> 전후양상

- 표본조사 -> 전수조사

- 사전처리 -> 사후처리

- 질 ->

- 인과관계 -> 상관관계

 

데이터 산업의 이해

1. 데이터 사이언스

- 데이터 관련 모든 분야의 전문지식을 종합한 학문

- 정형/비정형 데이터 막론하고 데이터 분석(총체적 접근법)

 

2. 데이터 사이언스 핵심 구성요소

- analytics

- it

- 비즈니스 분석

-> AI비

 

3. 데이터 사이언티스트의 필요 역량

- 하드스킬: 이과적 스킬

- 소프트스킬: 문과적 스킬

 

4. 하둡

- 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈소스 빅데이터 솔루션

 

5. 데이터 단위

- kb(2^10) < mb(2^20) < gb(2^30) < tb < pb < eb < zb < yb (peta < exa < zetta < yotta)

> 패지요!

 

빅데이터 조직 및 인력

1. 조직 및 인력방안 수립 (DSCoE: 분석조직)

- 집중 구조: 독립적 전담 조직 구성 (중복 업무 가능성 존재)

- 기능 구조: 해당 부서에서 직접 분석(DSCoE 없음)

- 분산 구조: 분석 조직 인력을 현업 부서에 배치

> 집기분

 

2 빅데이터 기술 및 제도

빅데이터 플랫폼

1. 빅데이터 플랫폼 계층 구조

- 소프트웨어 계층: 데이터 수집 및 정제, 처리 및 분석, 사용자/서비스 관리

- 플랫폼 계층: 데이터 및 자원 관리, 작업 스케줄링, 프로파일링

- 인프라 계층: 자원의 배치 및 관리, 저장장치 및 네트워크 관리

 

빅데이터와 인공지능

1. 인공지능, 머신러닝, 딥러닝 관계

- 딥러닝 <= 머신러닝 <= 인공지능 (포함관계)

 

2. 머신러닝 종류

- 지도 학습: 정답 알려주고 학습

- 비지도 학습: 정답 안 알려주고 학습

- 강화 학습: 에이전트가 보상 받기 위해 학습

 

3. 약인공지능, 강인공지능

- 약인공지능: 주어진 조건에서만 동작

- 강인공지능: 인간과 동일한 사고가 가능

 

4. 경량 딥러닝 학습 기법

- 전이학습: 사전 훈련 모델을 재사용해 학습

- 파인튜닝: 학습 모델을 특정 타겟에 맞게 재조정

- 지식종류: teacher network 지식 -> student network

 

개인정보 법제도

1. 데이터 3법**

- 개인정보보호법

- 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)

- 신용정보 이용 및 보호 관한 법률(신용정보법)

> 개정신

 

2. 데이터 3법 주요 특징

- 가명정보 개념 도입 (통계 작성, 연구, 공익적 목적 하에 동의 없이 활용 가능 ex) x기술사)

- 개인정보보호 거버넌스 체계 효율화

- 개인정보처리자 책임 강화

- 개인정보 판단기준 명확화

 

3. 개인정보 비식별 조치 가이드라인

- 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리

 

개인정보 활용

1. 위기요인과 통제방안

- 사생활침해: 사용자 책임으로 전환

- 책임원칙 훼손: 결과에 대해서만 책임

- 데이터 오용: 알고리즈미스트 필요

 

2. 마이데이터

- 자신의 신용 정보를 다른 제3자에게 제공하며 서비스를 제공받는 제도

 

[2] 데이터 분석 계획

1 분석 방안수립

분석 로드맵 설정

1. 분석대상과 방법

방법\대상 known unknown
known 최적화(Optimization) 통찰/관찰(Insight)
unknown 솔루션(Solutino) 발견(Discovery)

 

2. 분석 기획 방안

  과제 중심적 접근 장기적 마스터 플랜
목적 빠르게 해결 지속적 분석 원인 해결
1차 목표 speed, test accuracy, deploy
과제유형 quick, win long term view
접근방식 problem solving ploblom definition

 

3. 의사결정 가로막는 요소

- 고정관념, 편향된 생각

- 프레이밍 효과: 동일 상황임에도 개인의 판단, 결정이 달라짐

 

분석 문제 정의

1. 하향식 접근 방법

- 문제가 주어지고 해답 찾기 위해 진행

- 문제 탐색 -> 문제 정의 -> 해결방안 -> 타당성 검토

(1) 문제 탐색

- 문제 도출 식별, 가치에 초점

- 비즈니스 모델 캔버스 단순화 측면*: 업무, 제품, 고객, 규제와 감사, 지원인프라

  > 지원인프라 업무 중에 고객제품규제감사 했다

- 관점

   - 거시적 관점: STEEP(사회, 기술, 경제, 환경, 정치)

   - 경쟁자 확대 관점: 대체자, 경쟁자, 신규 진입자

   - 시장의 니즈 탐색 관점: 고객, 채널 영향자

(2) 타당성 검토

- 경제적 타당성: 비용대비 편익 분석 관점 접근

- 데이터 타당성: 데이터 존재여부, 분석역량 필요

- 기술적 타당성: 역량 확보 방안 사전에 수립

 

2. 상향식 접근 방법

- 문제 정의 자체가 어려울 때 사물을 그대로 인식하는 what 관점

- 주로 비지도 학습

 

3. 디자인 싱킹

- 사용자 공감으로 시작해 아이디어 발산,수렴 과정을 통한 피드백으로 발전하는 과정

- 공감하기 -> 문제정의 -> 아이디어 도출 -> 프로토타입 -> 테스트

 

데이터 분석 방안

1. 분석 방법론의 구성 요소

- 절차, 방법, 도구와 기법, 템플릿과 산출물

 

2. 분석 과제에서 고려해야 할 5가지 요소

- 데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도/정밀도

 * 정확도와 정밀도는 trade-off 관계

 

3. 프로젝트 관리 지식 체계 10가지 영역

- 통합, 범위, 시간(일정), 원가(비용), 품질, 인적자원, 의사소통, 리스크, 조달, 이해관계자

> 이범룡이 의자에서 시원한 조리품을 먹엇다

 

4. 우선순위 선정

- 전략적 중요도: 전략적 필요성, 시급성

- 실행 용이성: 투자, 기술 용이성

 

5. ROI 관점

- 시급성 관점 - 비즈니스 효과(value)

- 난이도 관점 - 투자비용 요소 3V(volume, variety, velocity)

난이도\시급성 현재 미래
어려움 1 2
쉬움 3 4

 

- 시급성 중요시 : 3 -> 4 -> 2

- 난이도 중요시 : 3 -> 1 -> 2

 

6. 분석 방법론 모델

- 폭포수 모델: 탑다운

- 나선형 모델: 점진적으로 완성, 위험요소 제거하면서

- 프로토타입 모델: 베타모델을 개발하고 보완

- 애자일: 일정 주기를 가지고 프로토타입을 계속 수정하여 고객의 니즈 반영

 

7. KDD 분석 방법론

- 데이터 선택 -> 전처리 -> 변환 -> 마이닝 -> 결과 평가

1) 전처리: 이상값, 잡음 식별 및 데이터 가공

2) 변환: 변수 선택 및 차원 축소

 

8. Crisp-DM 분석 방법론

- 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개

> 업데데이트 모델평가전

1) 모델링 단계에서 모델 평가 수행하고 평가 과정 단계에서 모델 적용성 평가 수행

2) 평가 -> 전개에서 위대한 실패 발생 가능

 

9. 빅데이터 분석 방법론**

 

10. 분석 거버넌스 체계 구성요소(거버넌스? 정부. 분석 체계 구성)

- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성 체계

> 시조프로마인드데

 

11. 데이터 분석 수준 진단

(1) 분석 준비도

- 분석업무파악

- 분석 인력 및 조직

- 분석 기법

- 분석 데이터

- 분석 문화

- IT 인프라

> IT 문데기인파

(2) 분석 성숙도

* CMMI 모델 기반(1~5단계)

- 비즈니스 / 조직,역량 / IT 부문 관점으로 구분

1) 도입: 환경 시스템 구축

2) 활용: 업무에 적용

3) 확산: 전사차원 관리, 공유

4) 최적화: 혁신, 성과 향상에 기여

> 도활확최

 

12. 데이터 분석 성숙도 모델

 

13. 분석 지원 인프라 방안 수립

- 확장성 고려한 플랫폼 구조 적용 (중앙집중적 관리)

 

14. 데이터 거버넌스

(1) 데이터 거버넌스

- 전사 차원에서 데이터 대해 표준화된 관리 체계 수립

- 구성요소: 원칙, 조직, 프로세스 (원조프)

- 중요 관리 대상

   - 마스터 데이터: 자료 처리 기준되는 자료

   - 메타데이터: 다른 데이터 설명해주는 데이터

   - 데이터 사전: DB 저장된 정보 요약

(2) 데이터 거버넌스 체계

- 데이터 표준화: 메타데이터 및 사전 구축

- 데이터 관리 체계: 효율성 위함

- 데이터 저장소 관리: 저장소 구성

- 표준화 활동: 모니터링, 표준 개선 활동

 

15. 빅데이터 거버넌스

- 데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화, 정보보호, 데이터 카테고리별 관리책임자 지정 등 포함

 

[3] 데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

데이터 수집

1. 데이터 수집 기술

- ETL: Extraction, Transformation, Load 3단계 통해 DW, DM 등 DB 시스템에 데이터 적재

- FTP: TCP/IP 네트워크에서 컴퓨터들 간의 파일을 교환하기 위한 통신 규약

- API: 프로그램 간 데이터 전송 가능 인터페이스

- Sqoop 스쿱: RDBMS와 하둡 간의 대용량 데이터 전송 도구

- 웹크롤링: 웹상 데이터 탐색 수집

 

데이터 유형 및 속성 파악

1. 데이터 유형

(1) 정성적, 정량적

- 정성적 데이터: 자료의 특징을 풀어 설명

- 정량적 데이터: 자료를 수치화

(2) 정형, 반정형, 비정형

- 정형: 정보 형태가 정해짐 (관계형 db, 엑셀 스프레드 시트, csv)

- 반정형: 데이터 설명하는 메타데이터 포함 (로그, html, xml, json)

- 비정형: 형태가 정해지지 않음 (sns, 유튜브 음원)

 

2. 데이터 척도 구분

(1) 질적 척도

- 명목척도: 어느 집단에 속하는지 나타내는 자료

- 순서(서열)척도: 서열관계까 존재하는 자료

(2) 양적 척도

- 등간(구간) 척도: 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈 가능 (온도, 지수 등)

- 비율척도: 절대적 기준 0이 존재하고 사칙연산 가능한 자료 (무게, 나이 등)

 

데이터 비식별화

1. 개인정보 비식별화

- 데이터 마스킹(홍xx), 가명처리(임꺽정씨), 총계처리(합: 510), 범주화(30~40세)

 

2. 프라이버시 보호 모델

- k-익명성: 일정 수준 비식별화

- i-다양성: 다양성 높여줌

- t-근접성: 분포 낮혀줌

(아래로 갈수록 비식별화 잘됨)

 

3. 차등정보보호

- 개인정보를 다른 수많은 데이터(노이즈)와 조합하여, 통계 정보 얻음

 

데이터 품질 검증

1. 데이터 품질 기준

- 유효성 측면: 정확성, 일관성

- 활용성 측면: 유용성, 접근성, 적시성, 보안성

 

2. 데이터 적재 및 저장

1. 분산 파일 시스템

(1) HDFS(하둡 분산파일 시스템)

- 64MB 여러 블록으로 분산 저장

- 오픈소스로 무료 사용

- 분산 처리로 시스템 과부화, 병목 현상 해소

(2) MapReduce

- 분산 데이터 병렬로 처리하는 하둡 핵심 모듈

- 조인, 그룹화, 단어카운트, 통계, 필터링 패턴이 있음

(3) GFS

- 구글의 데이터 처리 위한 분산 파일 시스템

 

2. 데이터베이스

- 관계형 데이터베이스: 정형 데이터 처리

- noSQL 데이터베이스: 비정형 데이터 처리

 

3. 병렬 DBMS

- 데이터 병렬 처리를 활용하여 성능 개선

- 공유 메모리, 공유 디스크, shared nothing 구조 가짐

- 종류: voltDB, SQP HANA, Vertica 등

 

4. DW, DM, Data Lake

(1) 데이터웨어하우스(DW) - 큰 DB

- 주제지향성: 분석 목적 설정

- 데이터 통합: 일관화된 형식

- 시계열성: 히스토리 가짐

- 비휘발성: 읽기전용 - 수시로 안 변함

(2) 데이터마트(DM)

- 데이터웨어하우스 한분야로 특정 목정 위해 사용 (소규모 DW)

(3) 데이터 레이크

- 비정형 데이터 저장하여 하둡과 연계하여 처리

> 데이터레이크나 데이터웨어하우스에서 DM으로 갈 때 ETL을 사용

 

 

반응형