반응형
(파트1) 빅데이터 분석 기획
1 빅데이터 개요 및 활용 (⭐️⭐️⭐️)
- 데이터 커버넌스의 정의 및 체계 요소
- 정의
- 데이터에 대해 정책 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 체계를 수립,
운영 위한 프레임워크 및 저장소를 구축하는 것 - 양질의 데이터를 위한 데이터 통합 관리체계
- ex) 마스터 데이터, 메타데이터, 데이터 사전은 관리대상
- 데이터에 대해 정책 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 체계를 수립,
- 체계 요소
- 데이터 표준화: 표준 용어 설명, 명명 규칙, 메타데이터 구축, 데이터 사전 구축 등 업무로 구성
- 데이터 관리 체계: 데이터 정합성, 활용의 효율성 위해 표준 데이터, 메타데이터, 데이터 전의 관리원칙을 수립. 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임 준비
- 데이터 저장소 관리: 관리 위한 전사 차원의 저장소 구성. 저장소는 관리 위한 워크플로우, 관리용 응용 sw 지원, 인터페이스를 통한 통제가 이루어져야 함. 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능
- 표준화 활동: 데이터 커버넌스 체계 구축 후 표준 준수 여부 모니터링, 계속적인 변화관리 및 주기적인 교육 진행
- 정의
- 빅데이터 플랫폼 구성하는 오픈 sw 들 역할
+ 초기는 하둡 분산파일시스템, 맵리듀스의 모듈로 구성
기능 sw 설명 코디네이터 zookeeper 서버 간 상호 조정 위한 서비스 제공 시스템 리소스관리 yarn 데이터 처리 위한 클러스터 자원과 스케줄링 위한 프레임워크 데이터저장 hbase hdfs 기반 컬럼 기반 db로 실시간 랜덤 조회 및 업데이트 가능 kudu 컬럼 기반 스토리지로 특정 컬럼에 대한 데이터 읽기 고속화 가능 데이터 수집 chukwa 분산 환경 데이터를 hdfs에 저장(안정적) flume 분산 서버에서 에이전트 설치되고, 에이전트로부터 데이터 전달 받은 콜렉터로 구성 kafka 데이터 스트림을 실시간으로 관리하기 위한 분산 메세징 시스템으로 디스크에 저장(데이터 손실 막음) 데이터 처리 pig 맵리듀스 API를 매우 단순화한 형태. sql 과 유사 spark 인메모리 기반 범용 데이터 처리 플랫폼. 배치 처리, 머신러닝, sql, 스트리밍데이터, 그래프 라이브러리 처리 등과 같은 다양한 작업 수용할 설계 hive 하둡 기반의 데이터 웨어하우징 솔루션 mahout 하둡 기반의 데이터 마이닝 알고리즘 구현한 오픈소스 impala 클라우데라에서 개발한 하둡 기반 분산 쿼리 엔진 presto 페이스북 개발한 대화형 질의 처리 위한 분산 쿼리 엔진 tajo 박사과정 학생 하둡 기반 데이터 웨어하우스 시스템 워크플로우 관리 oozie 하둡 작업 관리 워크플로우 및 코디데이터 시스템 airflow 에어비엔비에서 개발한 워크플로우 플랫폼 azkaban 링크드인에서 개발한 워크플로우 플랫폼 nifi 데이터 흐름을 모니터링하기 위한 프레임워크 데이터시각화 zeppelin 빅데이터 분석 웹 기반의 분석 도구, 분석 결과 시각화 작업 지원 - 하향식 접근방법 개념 및 프로세스
- 문제 주어지고 풀기
- 문제 탐색 -> 분석 문제 정의 -> 해결방안 탐색 -> 타당성 평가 및 과제 선정
- 상향식 접근방법 개념 및 프로세스
- 데이터로 문제 정의하고 풀기
- 장바구니 분석, 군집 분석 등 비지도 학습 기반으로 데이터 상태 분석 및 문제점 도출
- 빅데이터 분석 방법론
- 분석 과제 수행 시 참고할 수 있는 사전 정의된 체계적인 절차와 처리 방법
- 상세한 절차, 방법, 도구 및 기법, 템플릿과 산출물로 구성됨. 분석 업무 수행 시 일정 수준 품질 확보 가능
- 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개
- 데이터 유형별 수집 기술
- 정형 데이터: ETL, FTP, Open API
- 비정형 데이터: Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka
- 반정형 데이터: Sensing, Streaming, Flume, Scribe, Chukwa
- 비식별화 처리 기법과 사례
- 가명처리: 휴리스틱 가명화, K익명화, 암호화, 교환 방법. 다른 값으로 대체하는 방법
- 총계처리: 개인 정보에 통계값을 적용해 개인 특정할 수 없게 하는 방법. 총합, 부분합, 라운딩, 재배열 등
- 데이터삭제: 특정 데이터값 삭제. 식별자/부분/레코드 삭제 등
- 데이터범주화: 식별 값을 해당 그룹의 대푯값/구간값으로 변환하는 기법. 범주화, 랜덤 라운딩, 범위화 등
- 데이터마스킹: 식별값의 전체/부분을 대체값으로 변환하는 기법. 임의 작음 추가, 공백, 대체 방법
(파트1) 빅데이터 분석 기회 (별2개)
- 정형 데이터 특징 구분
- 정형 데이터: 정형화 스키마 구조, 고정 필드에 저장되는 행과 열로 구성된 데이터
ex) rdbms, 스프레드시트 등 - 반정형 데이터: 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터
ex) xml, html, 웹로그, 알람, json 파일, rss, 센서데이터 등 - 비정형 데이터: 스키마 구조 형태 없이 고정된 필드에 저장되지 않는 데이터
ex) sns, 웹게시판, 텍스트/이미지/오디오/비디오 등
- 정형 데이터: 정형화 스키마 구조, 고정 필드에 저장되는 행과 열로 구성된 데이터
- 데이터 저장방식 중 rdbms, nosql 도구 분류
- rdbms: 테이블 형식 관계형 데이터 저장,수정,관리 가능 데이터베이스. sql로 생성,수정,소회 처리. Oracle, mssql, mySQL이 있음
- noSQL: 제한이 덜한 데이터 모델을 기반에 둔 분산 데이터베이스. 수평적 확장, 데이터 복제, 간편 API 제공, 유연성 등의 장점이 있음. mongoDB, cassandra, hbase등이 있음. 데이터 모델에 따라 key value, document, wide column, graph db로 구성
- 하둡 분산 파일 시스템: 네트워크를 이용해 접ㅈ근하는 파일 시스템
- 데이터베이스와 데이터웨어하우스 구분
- DB 특징: 통합 데이터, 저장 데이터, 공용 데이터, 변화되는 데이터
- 데이터웨어하우스 특징: 데이터의 주제지향성, 데이터 통합성, 시계열성, 비휘발성
- 방대한 데이터를 효과적으로 통합 관리하고 bi 시스템 정합성과 성능을 보장하기 위해 사용자 관점의 주제별로 데이터를 통합하는 데이터 웨어하우스도 발전되어 옴
- erp(전사자원관리), mes(생산관리), scm(공급망관리), crm(고객관계관리) 등 기업의 전반적인 활동 영역에서 생성되는 데이터를 수집, 적재하여 다양한 관점의 통합 데이터를 생성하고 주제영역별 요약 데이터 집계 등 데이터 모델링 결과를 통해 실적 기반의 데이터 분석활동을 지원
- 빅데이터가 만들어내는 본질적 변화
- 사전처리 -> 사후처리시대
- 표본조사 -> 전수조사
- 질 -> 양
- 인과관계 -> 상관관계
- 빅데이터 위기 요인과 통제 방안
- 사생활침해: 동의제 -> 책임제
- 책임원칙 훼손: 책임원칙 강화, 보강. 예측에 의한 불이익 가능성을 최소화
- 데이터 오용: 분석 알고리즘 접근 허용하여 분석 결과 부당함 반증
- 분석업무 수행 주제에 따른 3가지 조직구조 유형 구분
- 집중구조:전사 분석 업무를 별도의 분석 전담 조직에서 담당. 분석 업무가 이중화, 이원화 될 수 있음
- 기능구조: 해당 업무 부서에서 분석 진행. 별도의 분석 조직이 없어 전사적 핵심분석이 어렵고, 과거 실적 분석에 국한될 가능성 큼
- 분산구조: 분석 조직 인력들을 현업부서로 직접 배치하여 업무 수행. 분석 결과에 따른 신속한 활동이 가능하며 best 프랙티스 공유 가능. 각 부서의 분석업무와 역할 분담 명확히 해야 함
- 개인정보의 수집 이용 관련 주요 사항(빅데이터 개인정보 보호 가이드라인)
- 개인정보에 대해 철저한 비식별화 조치
- 빅데이터 처리 사실, 목적 등 공개 (투명성 확보)
- 개인정보 재식별 시 즉시 파기 및 비식별화 조치
- 민감정보 및 통신비밀의 수집,이용,분석 등 처리 금지
- 수집 정보 저장, 관리 시 '기술적, 관리적 보호 조치' ㅣㅅ행
- 프라이버시 모델
- 가능한 추론의 형태와 프라이버시 노출에 대한 정량적 위험성을 규정하는 방법
- k-익명성: 특정인 추록 가능 여부 검토. 일정 확률 수준 이상 비식별
- I-다양성: 민감정보의 다양성을 높여 추론 가능성을 낮추기
- T-근접성: 민감 정보의 분포를 낮추어 추론 가능성을 낮추기
- 분석 주제 유형
- 최적화(optimization): 분석 대상, 방법 모두 알 때
- 통찰(insight): 분석 방법만 알 때
- 솔루션(solution): 분석 대상만 알 때
- 발견(discovery): 분석 대상,방법 둘다 모를 때
- 마스터 플랜 수립 개요
- 분석 마스터플랜은 분석대상 되는 과제 도출, 우선순위 평가해 단기, 중장기 로드맵 작성 필요
- 분석 과제 대상으로 전략적 중요도, 비즈니스 성과 및 roi(투자회수율), 분석과제 실행용이성 등 고려해 적용할 우선순위 설정 필요 있음
- 분석업무의 내재화 여부, 분석데이터를 내부의 데이터로 한정 여부, 분석기술 어느 기술까지 적용할 것인지 등 종합적으로 고려하여 로드맵 수립
- KDD(Knowledge Discovery in Database) (선전변마평)
- 데이터로부터 통계적인 패턴, 지식 찾기 위해 정리된 데이터 마이닝 프로세스
- 데이터 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 해석과 평가
- CRISP-DM(Cross Industry Standard Process For Data Mining) (업데데모평전)
- 6단계
- 단계 간 피드백을 통해 완성도 높이는 방식
- 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
- 데이터 분석 프로세스 (수저처분모시)
- 데이터 수집 -> 데이터 저장 -> 데이터 처리 -> 탐색적 데이터 분석(EDA) -> 모형 및 알고리즘 설계 -> 시각화 및 보고서 통한 데이터 활용
- 정형 데이터 품질 기준
- 수집된 정형 데이터 품질은 데이터베이스의 테이블, 컬럼과 업무 규칙 등을 기준으로 검증
- 정형데이터 품질 검증은 데이터베이스 메타를 기준으로 정확성, 유효성, 완전성과 업무적 정의 기준과 제약사항 등 기술 규칙 적용하여 검증 가능
반응형