https://youtu.be/2pzPpiNTaCk?si=LuQCKaNFaRxwY_xr
[1] 빅데이터의 이해
1 빅데이터 개요 및 활용
빅데이터의 특징
1. 데이터 정의
- 데이터: 있는 그대로의 객관적 사실. 가공되지 않은 상태
- 정보: 데이터로부터 가공된 자료
2. 빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 경제성 확보, 저장매체 가격 하락, 하둡 활용한 분산 컴퓨팅, 비정형 데이터 확산
3. 빅데이터 활용 위한 3대 요소 (인자기) - 이탈리아 축구 선수..
- 인력, 자원(데이터), 기술
4. 빅데이터 3V (가트너(세계적 기업) 정의)
- volume(규모): 데이터 양 증가 (구글 번역 서비스)
- variety(다양성): 데이터 유형 증가
- velocity(속도): 데이터 생성, 처리 속도 증가
- 그외 5V 요소
- value(가치), veracity(신뢰성)
5. DIKW 피라미드
- 데이터(Data): 있는 그대로 사실 (A대리점 100만원)
- 정보(Information): Data 통해 패턴 인식 (A점이 싸다)
- 지식(Knowledge): 패턴 통해 예측 (A에서 사면 이득)
- 지혜(Wisdom): 창의적 산물 (A에서 사자)
6. 암묵지, 형식지간 상호작용
- 암묵지: 개인에게 습득되고 겉으로 드러나지 않음
- 형식지: 문서, 메뉴얼 등 형상화된 지식
공표연내
(1) 공통화: 암묵지 지식을 다른 사람에게 알려줌
(2) 표출화: 암묵지 지식을 메뉴얼이나 문서로 전환
(3) 연결화: 교재, 메뉴얼에 새로운 지식 추가
(4) 내면화: 만들어진 교재, 메뉴얼에서 다른 사람의 암묵지 터득
7. 데이터베이스 정의
(1) DB: 구조에 맞게 조직화된 데이터 집합
- 스키마: DB 구조, 제약조건 관한 전반적 명세
- 인스턴스: 정의된 스키마에 따라 저장된 값
(2) DBMS: DB 관리, 접근 환경 제공하는 소프트웨어
- 관계형 DBMS: 테이블로 정리 ex) oracle, mssql, mysql, mariadb
- 객체지향 DBMS: 정보를 객체 형태로 정리
- NoSQL DBMS: 비정형 데이터를 저장하고 처리 ex) hbase, mongodb, dynamodb, cassandra
- sql: db 접근할 수 있는 하부 언어
- 정의언어(ddl): create, alter, drop
- 조작언어(dml): select, insert, delete, update
- 제어언어(dcl): commit, rollback, grant, revoke
8. 데이터베이스 특징
- 공용 데이터: 여러 사용자가 다른 목적으로 데이터 공동 이용
- 통합된 데이터: 동일 데이터 중복되어 있지 않음
- 저장된 데이터: 저장 매체에 저장
- 변화되는 데이터: 계속 변해도 현재 정확한 데이터 유지(무결성)
-> 공통저변
9. 데이터베이스 구성요소 (빨리 찾는 방법)
- 메타데이터: 데이터 설명하는 데이터
- 인덱스: 정렬, 탐색을 위한 데이터 이름
10. 기업 활용 데이터베이스
- OLTP: 데이터 수시 갱신
- OLAP: 대화식으로 분석
- CRM: 고객
- SCM: 공급망 연결
- ERP: 자원
- BI: 리포트(지능) 중심 도구
- BA: 통찰력
- KMS: 지식(Knowledge)
빅데이터의 가치
1. 빅데이터 가치 산정이 어려운 이유
- 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
- 기존 가치 없는 데이터도 새로운 분석기법으로 가치 창출
2. 빅데이터가 만들어내는 변화**
-> 전후양상
- 표본조사 -> 전수조사
- 사전처리 -> 사후처리
- 질 -> 양
- 인과관계 -> 상관관계
데이터 산업의 이해
1. 데이터 사이언스
- 데이터 관련 모든 분야의 전문지식을 종합한 학문
- 정형/비정형 데이터 막론하고 데이터 분석(총체적 접근법)
2. 데이터 사이언스 핵심 구성요소
- analytics
- it
- 비즈니스 분석
-> AI비
3. 데이터 사이언티스트의 필요 역량
- 하드스킬: 이과적 스킬
- 소프트스킬: 문과적 스킬
4. 하둡
- 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈소스 빅데이터 솔루션
5. 데이터 단위
- kb(2^10) < mb(2^20) < gb(2^30) < tb < pb < eb < zb < yb (peta < exa < zetta < yotta)
> 패지요!
빅데이터 조직 및 인력
1. 조직 및 인력방안 수립 (DSCoE: 분석조직)
- 집중 구조: 독립적 전담 조직 구성 (중복 업무 가능성 존재)
- 기능 구조: 해당 부서에서 직접 분석(DSCoE 없음)
- 분산 구조: 분석 조직 인력을 현업 부서에 배치
> 집기분
2 빅데이터 기술 및 제도
빅데이터 플랫폼
1. 빅데이터 플랫폼 계층 구조
- 소프트웨어 계층: 데이터 수집 및 정제, 처리 및 분석, 사용자/서비스 관리
- 플랫폼 계층: 데이터 및 자원 관리, 작업 스케줄링, 프로파일링
- 인프라 계층: 자원의 배치 및 관리, 저장장치 및 네트워크 관리
빅데이터와 인공지능
1. 인공지능, 머신러닝, 딥러닝 관계
- 딥러닝 <= 머신러닝 <= 인공지능 (포함관계)
2. 머신러닝 종류
- 지도 학습: 정답 알려주고 학습
- 비지도 학습: 정답 안 알려주고 학습
- 강화 학습: 에이전트가 보상 받기 위해 학습
3. 약인공지능, 강인공지능
- 약인공지능: 주어진 조건에서만 동작
- 강인공지능: 인간과 동일한 사고가 가능
4. 경량 딥러닝 학습 기법
- 전이학습: 사전 훈련 모델을 재사용해 학습
- 파인튜닝: 학습 모델을 특정 타겟에 맞게 재조정
- 지식종류: teacher network 지식 -> student network
개인정보 법제도
1. 데이터 3법**
- 개인정보보호법
- 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)
- 신용정보 이용 및 보호 관한 법률(신용정보법)
> 개정신
2. 데이터 3법 주요 특징
- 가명정보 개념 도입 (통계 작성, 연구, 공익적 목적 하에 동의 없이 활용 가능 ex) x기술사)
- 개인정보보호 거버넌스 체계 효율화
- 개인정보처리자 책임 강화
- 개인정보 판단기준 명확화
3. 개인정보 비식별 조치 가이드라인
- 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리
개인정보 활용
1. 위기요인과 통제방안
- 사생활침해: 사용자 책임으로 전환
- 책임원칙 훼손: 결과에 대해서만 책임
- 데이터 오용: 알고리즈미스트 필요
2. 마이데이터
- 자신의 신용 정보를 다른 제3자에게 제공하며 서비스를 제공받는 제도
[2] 데이터 분석 계획
1 분석 방안수립
분석 로드맵 설정
1. 분석대상과 방법
방법\대상 | known | unknown |
known | 최적화(Optimization) | 통찰/관찰(Insight) |
unknown | 솔루션(Solutino) | 발견(Discovery) |
2. 분석 기획 방안
과제 중심적 접근 | 장기적 마스터 플랜 | |
목적 | 빠르게 해결 | 지속적 분석 원인 해결 |
1차 목표 | speed, test | accuracy, deploy |
과제유형 | quick, win | long term view |
접근방식 | problem solving | ploblom definition |
3. 의사결정 가로막는 요소
- 고정관념, 편향된 생각
- 프레이밍 효과: 동일 상황임에도 개인의 판단, 결정이 달라짐
분석 문제 정의
1. 하향식 접근 방법
- 문제가 주어지고 해답 찾기 위해 진행
- 문제 탐색 -> 문제 정의 -> 해결방안 -> 타당성 검토
(1) 문제 탐색
- 문제 도출 식별, 가치에 초점
- 비즈니스 모델 캔버스 단순화 측면*: 업무, 제품, 고객, 규제와 감사, 지원인프라
> 지원인프라 업무 중에 고객이 제품을 규제와 감사 했다
- 관점
- 거시적 관점: STEEP(사회, 기술, 경제, 환경, 정치)
- 경쟁자 확대 관점: 대체자, 경쟁자, 신규 진입자
- 시장의 니즈 탐색 관점: 고객, 채널 영향자
(2) 타당성 검토
- 경제적 타당성: 비용대비 편익 분석 관점 접근
- 데이터 타당성: 데이터 존재여부, 분석역량 필요
- 기술적 타당성: 역량 확보 방안 사전에 수립
2. 상향식 접근 방법
- 문제 정의 자체가 어려울 때 사물을 그대로 인식하는 what 관점
- 주로 비지도 학습
3. 디자인 싱킹
- 사용자 공감으로 시작해 아이디어 발산,수렴 과정을 통한 피드백으로 발전하는 과정
- 공감하기 -> 문제정의 -> 아이디어 도출 -> 프로토타입 -> 테스트
데이터 분석 방안
1. 분석 방법론의 구성 요소
- 절차, 방법, 도구와 기법, 템플릿과 산출물
2. 분석 과제에서 고려해야 할 5가지 요소
- 데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도/정밀도
* 정확도와 정밀도는 trade-off 관계
3. 프로젝트 관리 지식 체계 10가지 영역
- 통합, 범위, 시간(일정), 원가(비용), 품질, 인적자원, 의사소통, 리스크, 조달, 이해관계자
> 이범룡이 의자에서 시원한 조리품을 먹엇다
4. 우선순위 선정
- 전략적 중요도: 전략적 필요성, 시급성
- 실행 용이성: 투자, 기술 용이성
5. ROI 관점
- 시급성 관점 - 비즈니스 효과(value)
- 난이도 관점 - 투자비용 요소 3V(volume, variety, velocity)
난이도\시급성 | 현재 | 미래 |
어려움 | 1 | 2 |
쉬움 | 3 | 4 |
- 시급성 중요시 : 3 -> 4 -> 2
- 난이도 중요시 : 3 -> 1 -> 2
6. 분석 방법론 모델
- 폭포수 모델: 탑다운
- 나선형 모델: 점진적으로 완성, 위험요소 제거하면서
- 프로토타입 모델: 베타모델을 개발하고 보완
- 애자일: 일정 주기를 가지고 프로토타입을 계속 수정하여 고객의 니즈 반영
7. KDD 분석 방법론
- 데이터 선택 -> 전처리 -> 변환 -> 마이닝 -> 결과 평가
1) 전처리: 이상값, 잡음 식별 및 데이터 가공
2) 변환: 변수 선택 및 차원 축소
8. Crisp-DM 분석 방법론
- 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
> 업데데이트 모델평가전
1) 모델링 단계에서 모델 평가 수행하고 평가 과정 단계에서 모델 적용성 평가 수행
2) 평가 -> 전개에서 위대한 실패 발생 가능
9. 빅데이터 분석 방법론**
10. 분석 거버넌스 체계 구성요소(거버넌스? 정부. 분석 체계 구성)
- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성 체계
> 시조프로마인드데
11. 데이터 분석 수준 진단
(1) 분석 준비도
- 분석업무파악
- 분석 인력 및 조직
- 분석 기법
- 분석 데이터
- 분석 문화
- IT 인프라
> IT 문데기인파
(2) 분석 성숙도
* CMMI 모델 기반(1~5단계)
- 비즈니스 / 조직,역량 / IT 부문 관점으로 구분
1) 도입: 환경 시스템 구축
2) 활용: 업무에 적용
3) 확산: 전사차원 관리, 공유
4) 최적화: 혁신, 성과 향상에 기여
> 도활확최
12. 데이터 분석 성숙도 모델
13. 분석 지원 인프라 방안 수립
- 확장성 고려한 플랫폼 구조 적용 (중앙집중적 관리)
14. 데이터 거버넌스
(1) 데이터 거버넌스
- 전사 차원에서 데이터 대해 표준화된 관리 체계 수립
- 구성요소: 원칙, 조직, 프로세스 (원조프)
- 중요 관리 대상
- 마스터 데이터: 자료 처리 기준되는 자료
- 메타데이터: 다른 데이터 설명해주는 데이터
- 데이터 사전: DB 저장된 정보 요약
(2) 데이터 거버넌스 체계
- 데이터 표준화: 메타데이터 및 사전 구축
- 데이터 관리 체계: 효율성 위함
- 데이터 저장소 관리: 저장소 구성
- 표준화 활동: 모니터링, 표준 개선 활동
15. 빅데이터 거버넌스
- 데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화, 정보보호, 데이터 카테고리별 관리책임자 지정 등 포함
[3] 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
데이터 수집
1. 데이터 수집 기술
- ETL: Extraction, Transformation, Load 3단계 통해 DW, DM 등 DB 시스템에 데이터 적재
- FTP: TCP/IP 네트워크에서 컴퓨터들 간의 파일을 교환하기 위한 통신 규약
- API: 프로그램 간 데이터 전송 가능 인터페이스
- Sqoop 스쿱: RDBMS와 하둡 간의 대용량 데이터 전송 도구
- 웹크롤링: 웹상 데이터 탐색 수집
데이터 유형 및 속성 파악
1. 데이터 유형
(1) 정성적, 정량적
- 정성적 데이터: 자료의 특징을 풀어 설명
- 정량적 데이터: 자료를 수치화
(2) 정형, 반정형, 비정형
- 정형: 정보 형태가 정해짐 (관계형 db, 엑셀 스프레드 시트, csv)
- 반정형: 데이터 설명하는 메타데이터 포함 (로그, html, xml, json)
- 비정형: 형태가 정해지지 않음 (sns, 유튜브 음원)
2. 데이터 척도 구분
(1) 질적 척도
- 명목척도: 어느 집단에 속하는지 나타내는 자료
- 순서(서열)척도: 서열관계까 존재하는 자료
(2) 양적 척도
- 등간(구간) 척도: 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈 가능 (온도, 지수 등)
- 비율척도: 절대적 기준 0이 존재하고 사칙연산 가능한 자료 (무게, 나이 등)
데이터 비식별화
1. 개인정보 비식별화
- 데이터 마스킹(홍xx), 가명처리(임꺽정씨), 총계처리(합: 510), 범주화(30~40세)
2. 프라이버시 보호 모델
- k-익명성: 일정 수준 비식별화
- i-다양성: 다양성 높여줌
- t-근접성: 분포 낮혀줌
(아래로 갈수록 비식별화 잘됨)
3. 차등정보보호
- 개인정보를 다른 수많은 데이터(노이즈)와 조합하여, 통계 정보 얻음
데이터 품질 검증
1. 데이터 품질 기준
- 유효성 측면: 정확성, 일관성
- 활용성 측면: 유용성, 접근성, 적시성, 보안성
2. 데이터 적재 및 저장
1. 분산 파일 시스템
(1) HDFS(하둡 분산파일 시스템)
- 64MB 여러 블록으로 분산 저장
- 오픈소스로 무료 사용
- 분산 처리로 시스템 과부화, 병목 현상 해소
(2) MapReduce
- 분산 데이터 병렬로 처리하는 하둡 핵심 모듈
- 조인, 그룹화, 단어카운트, 통계, 필터링 패턴이 있음
(3) GFS
- 구글의 데이터 처리 위한 분산 파일 시스템
2. 데이터베이스
- 관계형 데이터베이스: 정형 데이터 처리
- noSQL 데이터베이스: 비정형 데이터 처리
3. 병렬 DBMS
- 데이터 병렬 처리를 활용하여 성능 개선
- 공유 메모리, 공유 디스크, shared nothing 구조 가짐
- 종류: voltDB, SQP HANA, Vertica 등
4. DW, DM, Data Lake
(1) 데이터웨어하우스(DW) - 큰 DB
- 주제지향성: 분석 목적 설정
- 데이터 통합: 일관화된 형식
- 시계열성: 히스토리 가짐
- 비휘발성: 읽기전용 - 수시로 안 변함
(2) 데이터마트(DM)
- 데이터웨어하우스 한분야로 특정 목정 위해 사용 (소규모 DW)
(3) 데이터 레이크
- 비정형 데이터 저장하여 하둡과 연계하여 처리
> 데이터레이크나 데이터웨어하우스에서 DM으로 갈 때 ETL을 사용