본문 바로가기

카테고리 없음

빅데이터분석기사 필기 3과목 요약

반응형

분석모형 설계


1. 분석 절차 수립

분석 모형 선정

분석모형 정의

정의 시 고려사항

1. 과대적합: 너무 학습해서 복잡해짐

2. 과소적합: 너무 학습 못 시켜서 단순한 모델

3. 모형 선택의 오류: 적합하지 않은 모델 선택

4. 변수 선택 오류: 관련 변수 누락 또는 관련 없는 변수 포함된 모델

5. 데이터 편향: 대표성 없는 훈련데이터로 인한 편향

분석모형 구축 절차

 

2. 분석 환경 구축

분석 도구 선정

 

데이터 분할

과대적합, 과소적합 방지. 데이터 불균형 문제를 해결 위해 사용

1) 훈련용: 학습에 활용 (50%)

2) 검증용: 모델 과대, 과소 적합 조정에 활용 (30%)

3) 평가용: 모델 평가 시 활용 (20%)

 

분석기법 적용


1. 분석기법

회귀분석

1. 회귀분석

y = wx + b(y 결과, x 원인, w 회귀계수)

(1) 개념: 독립변수 -> 종속변수 영향 미치는 걸 파악하는 분석 방법

  - 독립 변수: 원인 변수 (x)

  - 종속 변수: 결과 변수 (y)

  - 잔차: 계산값과 예측값의 차이 (오차: 모집단 기준, 잔차: 표본집단 기준)

(2) 회귀계수 추정 방법

  - 최소제곱법: 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법 (제일 맞는 기울기 찾는 거)

(3) 회귀모형 평가

  - R-square: 총 변동 중에서 회귀 모형에 의해 설명되는 변동이 차지하는 비율(0~1) / 1이 성능 젤 좋음

 

2. 선형회귀분석의 가정**

- 선형성: 종속, 독립변수는 선형관계

- 등분산성: 잔차의 분산이 고르게 분포

- 정상성(정규성): 잔차가 정규분포 특성 지님

- 독립성: 독립변수들 간 상관관계 없음

  - 다중공선성: 독립변수들 간 강한 상관관계가 나타나는 문제

 

3. 회귀분석 종류

- 단순회귀 yx + b 1개 독립변수, 종속변수의 선형관계

- 다중회귀: 2개 이상의 독립변수와 종속변수의 선형 관계 ex) y = w1x1 + w2x2+ ... + wnxn + b

- 다항회귀: 2개 이상 독립변수, 종속변수의 2차 함수 이상 관계 ex) y = w1x1^2 + w2x2^2 + ... + b

- 릿지회귀(L2규제), 라쏘회귀(L1 규제): 규제를 포함하는 회귀 모형 

 

4. 회귀 모형 구축절차

 

5. 회귀 모형 변수 선택 방법

- 전진선택법

- 후진선택법

- 단계별 선택법: 전진 + 후진선택법. 변수 추가 시 벌점 고려

(어떤 게 벌점인지 확인 필요)

 

로지스틱 회귀 분석

회귀 -> 수치형

분류 -> 범주형

: 종속변수가 범주형 데이터를 대상으로 성공, 실패 2 집단을 분류하는 문제에 활용

 

 

의사결정나무

1. 의사결정나무

- 여러 분리 기준으로 최종 분류값 찾는 방법

 

3. 지니지수와 엔트로피지수의 계산

 

인공신경망

1. 인공신경망

- 인간의 뇌 구조 모방한 퍼셉트론을 활용한 추론모델

2. 활성화 함수

 

3. 인공신경망의 과적합 방지 방안

- 규제: 라쏘(L1) 규제, 릿지(L2) 규제

- 드롭아웃: 일부 퍼셉트론 비활성화시켜서 학습

- 조기종료: 특정 지점에서 학습 미리 종료

- 모델 복잡도 줄이기: 은닉층 퍼셉트론 수 감소

- 데이터 증강: 데이터 변형 주어 데이터 수 증가

- 배치 정규화

 

4. 인공신경망 학습 방법

1) 순전파(피드포워드)

2) 역전파 알고리즘: 가중치 수정하여 오차 줄임(합성함수의 곱 활용)

3) 경사하강법*:  편미분 활용

 4) 기울기 소실 문제: 다수의 은닉층에서 시그모이드 함수 사용 시 학습이 제대로 안 일어남. ReLU 쓰면 됨

 

서포트벡터머신

1. 서포트벡터머신(SVM): 마진이 최대가 되는 초평면(직선, 평면) 찾아 선형, 비선형 분류, 회귀에서 활용 가능한 모델

  - 하이퍼플레인(초평명): 데이터 구분 기준이 되는 경계

  - 서포트벡터: 클래스 나누는 하이퍼플레인과 가까운 위치 샘플

  - 마진: 하이퍼플레인과 서포트벡터 사이의 걸이

  - 커널함수: 저차원 데이터를 고차원 데이터로 변경하는 함수

 

2. 서포트벡터머신의 유형

- 하드마진분류: 오류 비허용

- 소프트마진분류: 마진 내 어느 정도 오류 허용

 

연관성분석

1. 연관분석

: 항목들 간 조건-결과로 이루어지는 패턴을 발견하는 기법 (장바구니 분석)

(1) 특징

- 결과가 단순하고 분명

- 품목 수가 증가할수록 계산량 기하급수적으로 증가

- Apriori(앱리오리) 알고리즘 활용하여 연관분석 수행

(2) 순차패턴: 연간분석에 시간개념 추가하면 됨

 

2. 연관분석의 지표 **

 

군집분석

1. 군집분석: 비지도 학습으로 데이터들 간 거리, 유사성 기준으로 군집을 나누는 분석

2. 거리 측도

 

3. 계층적 군집 분석

 

4. K평균 군집화: 비계층적 군집화 방법으로 거리기반

 

5. DBSCAN

- 비계층적 군집화 방법으로 밀도기반

- 군집 개수 지정할 필요 없음

- 노이즈와 이상치에 강함

 

6. 기타 비게층적 군집분석

2. 고급 분석 기법

범주형 자료 분석

1. 분할표

일어날 확률 / 일어나지 않을 확률

 

다변량 분석 (-> 차원축소)

1. 요인분석

 

시계열분석

1. 시계열분석: 시간의 흐름에 따라 관찰된 자료의 특성 파악해 미래 예측 (주가, 기온 데이터)

2. 시계열 모형

3. 분해시계열

 

베이지안기법

1. 베이즈 정리

2. 나이브베이즈 분류

 

딥러닝 분석

1. DNN (심층 신경망): 은닉층이 2개 이상으로 구성된 인공신경망

2. CNN (합성곱 신경망)

3. RNN

4. 오토인코더

 

비정형 데이터 분석

1. 텍스트마이닝

(1) 통계적 기반

- TDM: 문서의 단어들 빈도를 행렬로 표현

- TF-IDF

  TF: 1개 문서 내에서 특정 단어의 출현 빈도

  IDF: 특정 단어가 전체 문서에 등장하는 정도

(2) 단어수준 기반

- Word2Vec: 거리 기반으로 벡터로 표현

  - CBOW: 압뒤 단어로 주어진 단어 유추

  - Skip-Gram: 중심 단어에서 주변단어 예측

- FastText: 하나의 단어를 여러개로 잘라서 벡터로 계싼

- ELMo: 양방향 언어 모델을 적용

 

2. 트랜스포머

- RNN(순환신경망, 시계열)의 느린 속도와 병렬처리 불가 단점을 개선한 Attention 모델

 

3. 기타 비정형 데이터 분석

 

앙상블 분석

1. 앙상블(여러 하모니를 이루는 것)

 

비모수 통계

 

반응형