분석모형 설계
1. 분석 절차 수립
분석 모형 선정
분석모형 정의
정의 시 고려사항
1. 과대적합: 너무 학습해서 복잡해짐
2. 과소적합: 너무 학습 못 시켜서 단순한 모델
3. 모형 선택의 오류: 적합하지 않은 모델 선택
4. 변수 선택 오류: 관련 변수 누락 또는 관련 없는 변수 포함된 모델
5. 데이터 편향: 대표성 없는 훈련데이터로 인한 편향
분석모형 구축 절차
2. 분석 환경 구축
분석 도구 선정
데이터 분할
과대적합, 과소적합 방지. 데이터 불균형 문제를 해결 위해 사용
1) 훈련용: 학습에 활용 (50%)
2) 검증용: 모델 과대, 과소 적합 조정에 활용 (30%)
3) 평가용: 모델 평가 시 활용 (20%)
분석기법 적용
1. 분석기법
회귀분석
1. 회귀분석
y = wx + b(y 결과, x 원인, w 회귀계수)
(1) 개념: 독립변수 -> 종속변수 영향 미치는 걸 파악하는 분석 방법
- 독립 변수: 원인 변수 (x)
- 종속 변수: 결과 변수 (y)
- 잔차: 계산값과 예측값의 차이 (오차: 모집단 기준, 잔차: 표본집단 기준)
(2) 회귀계수 추정 방법
- 최소제곱법: 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법 (제일 맞는 기울기 찾는 거)
(3) 회귀모형 평가
- R-square: 총 변동 중에서 회귀 모형에 의해 설명되는 변동이 차지하는 비율(0~1) / 1이 성능 젤 좋음
2. 선형회귀분석의 가정**
- 선형성: 종속, 독립변수는 선형관계
- 등분산성: 잔차의 분산이 고르게 분포
- 정상성(정규성): 잔차가 정규분포 특성 지님
- 독립성: 독립변수들 간 상관관계 없음
- 다중공선성: 독립변수들 간 강한 상관관계가 나타나는 문제
3. 회귀분석 종류
- 단순회귀 yx + b 1개 독립변수, 종속변수의 선형관계
- 다중회귀: 2개 이상의 독립변수와 종속변수의 선형 관계 ex) y = w1x1 + w2x2+ ... + wnxn + b
- 다항회귀: 2개 이상 독립변수, 종속변수의 2차 함수 이상 관계 ex) y = w1x1^2 + w2x2^2 + ... + b
- 릿지회귀(L2규제), 라쏘회귀(L1 규제): 규제를 포함하는 회귀 모형
4. 회귀 모형 구축절차
5. 회귀 모형 변수 선택 방법
- 전진선택법
- 후진선택법
- 단계별 선택법: 전진 + 후진선택법. 변수 추가 시 벌점 고려
(어떤 게 벌점인지 확인 필요)
로지스틱 회귀 분석
회귀 -> 수치형
분류 -> 범주형
: 종속변수가 범주형 데이터를 대상으로 성공, 실패 2 집단을 분류하는 문제에 활용
의사결정나무
1. 의사결정나무
- 여러 분리 기준으로 최종 분류값 찾는 방법
3. 지니지수와 엔트로피지수의 계산
인공신경망
1. 인공신경망
- 인간의 뇌 구조 모방한 퍼셉트론을 활용한 추론모델
2. 활성화 함수
3. 인공신경망의 과적합 방지 방안
- 규제: 라쏘(L1) 규제, 릿지(L2) 규제
- 드롭아웃: 일부 퍼셉트론 비활성화시켜서 학습
- 조기종료: 특정 지점에서 학습 미리 종료
- 모델 복잡도 줄이기: 은닉층 퍼셉트론 수 감소
- 데이터 증강: 데이터 변형 주어 데이터 수 증가
- 배치 정규화
4. 인공신경망 학습 방법
1) 순전파(피드포워드)
2) 역전파 알고리즘: 가중치 수정하여 오차 줄임(합성함수의 곱 활용)
3) 경사하강법*: 편미분 활용
4) 기울기 소실 문제: 다수의 은닉층에서 시그모이드 함수 사용 시 학습이 제대로 안 일어남. ReLU 쓰면 됨
서포트벡터머신
1. 서포트벡터머신(SVM): 마진이 최대가 되는 초평면(직선, 평면) 찾아 선형, 비선형 분류, 회귀에서 활용 가능한 모델
- 하이퍼플레인(초평명): 데이터 구분 기준이 되는 경계
- 서포트벡터: 클래스 나누는 하이퍼플레인과 가까운 위치 샘플
- 마진: 하이퍼플레인과 서포트벡터 사이의 걸이
- 커널함수: 저차원 데이터를 고차원 데이터로 변경하는 함수
2. 서포트벡터머신의 유형
- 하드마진분류: 오류 비허용
- 소프트마진분류: 마진 내 어느 정도 오류 허용
연관성분석
1. 연관분석
: 항목들 간 조건-결과로 이루어지는 패턴을 발견하는 기법 (장바구니 분석)
(1) 특징
- 결과가 단순하고 분명
- 품목 수가 증가할수록 계산량 기하급수적으로 증가
- Apriori(앱리오리) 알고리즘 활용하여 연관분석 수행
(2) 순차패턴: 연간분석에 시간개념 추가하면 됨
2. 연관분석의 지표 **
군집분석
1. 군집분석: 비지도 학습으로 데이터들 간 거리, 유사성 기준으로 군집을 나누는 분석
2. 거리 측도
3. 계층적 군집 분석
4. K평균 군집화: 비계층적 군집화 방법으로 거리기반
5. DBSCAN
- 비계층적 군집화 방법으로 밀도기반
- 군집 개수 지정할 필요 없음
- 노이즈와 이상치에 강함
6. 기타 비게층적 군집분석
2. 고급 분석 기법
범주형 자료 분석
1. 분할표
일어날 확률 / 일어나지 않을 확률
다변량 분석 (-> 차원축소)
1. 요인분석
시계열분석
1. 시계열분석: 시간의 흐름에 따라 관찰된 자료의 특성 파악해 미래 예측 (주가, 기온 데이터)
2. 시계열 모형
3. 분해시계열
베이지안기법
1. 베이즈 정리
2. 나이브베이즈 분류
딥러닝 분석
1. DNN (심층 신경망): 은닉층이 2개 이상으로 구성된 인공신경망
2. CNN (합성곱 신경망)
3. RNN
4. 오토인코더
비정형 데이터 분석
1. 텍스트마이닝
(1) 통계적 기반
- TDM: 문서의 단어들 빈도를 행렬로 표현
- TF-IDF
TF: 1개 문서 내에서 특정 단어의 출현 빈도
IDF: 특정 단어가 전체 문서에 등장하는 정도
(2) 단어수준 기반
- Word2Vec: 거리 기반으로 벡터로 표현
- CBOW: 압뒤 단어로 주어진 단어 유추
- Skip-Gram: 중심 단어에서 주변단어 예측
- FastText: 하나의 단어를 여러개로 잘라서 벡터로 계싼
- ELMo: 양방향 언어 모델을 적용
2. 트랜스포머
- RNN(순환신경망, 시계열)의 느린 속도와 병렬처리 불가 단점을 개선한 Attention 모델
3. 기타 비정형 데이터 분석
앙상블 분석
1. 앙상블(여러 하모니를 이루는 것)
비모수 통계