-
Notifications
You must be signed in to change notification settings - Fork 41
/
Copy path20_시나리오_리스트.txt
110 lines (80 loc) · 3.96 KB
/
20_시나리오_리스트.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
1. 기계학습
1.1 분류
- 데이터 구조 확인
- 데이터 타입 맞춰주기
- DQ Check(빈도분석, 분포분석)
- 전처리(중복값, 결측치, 이상치)
- 요약데이터로 변환(gourpby agg)
- 파생변수 생성(RFM 등)
- 데이터 마트 EDA(빈도분석, 분포분석, 상관성분석, 특성분석 시각화) --> 변수선택(빈도/분포분석 결과 활용 "90%구간")
- y 값 전처리(y1은 class를 이항으로 만들고, y2는 class를 여러개)
- 더미화
- 다중공선성 확인 및 변수 제거(VIF; 분산팽창지수 활용)
- train, test set split
- 스케일링(StandardScaler)
- 오버샘플링
- 군집화(최적 군집 수 찾고 군집화 모델 성능 평가 - 실루엣)
- 군집화(y의 class 수에 맞춰서 모델링)
- 군집별 프로파일링
- 다중분류 후 성능평가(Confusion matrix 작성)
- 군집화 결과를 새로운 컬럼으로 추가(train, test 모두 수행)
- 지도학습 통한 분류(다양한 알고리즘 - 로지스틱(y class가 이항일 때), RF, XGB, MLP, SVM 등 5가지)
- 최종모델 선택 및 이유
- test set 예측
- 다중분류 성능평가(accuracy, precise, recall, F1 score, ROC 계산, 그래프 작성, AUC 계산)
- 직접 데이터 생성해서 예측
1.2 회귀
- 데이터 구조 확인
- 데이터 타입 맞춰주기
- DQ Check(빈도분석, 분포분석)
- 전처리(중복값, 결측치, 이상치)
- 요약데이터로 변환(gourpby agg)
- 파생변수 생성(RFM 등)
- 데이터 마트 EDA(빈도분석, 분포분석, 상관성분석, 특성분석 시각화) --> 변수선택(빈도/분포분석 결과 활용 "90%구간")
- y분포 확인 후 로그변환
- 더미화
- 다중공선성 확인 및 변수 제거(VIF; 분산팽창지수 활용)
- train, test set split
- 스케일링(StandardScaler)
- 군집화(최적 군집 수 찾고 군집화 모델 성능 평가 - 실루엣)
- 군집별 프로파일링
- 군집화 결과를 새로운 컬럼으로 추가(train, test 모두 수행)
- 지도학습 통한 회귀(다양한 알고리즘 - 선형회귀, Ridge/Lasso/Elastic net, RF, XGB, MLP, SVM 등 5가지)
- 최종모델 선택 및 이유
- test set 예측
- 예측 성능평가(MAE, MAPE, MSE, RMSE 등)
- 직접 데이터 생성해서 예측
=======================================================
=======================================================
3. 시계열
- 데이터 형식: 날짜, y값, X값 여러 개
- 데이터 구조 확인
- 날짜 데이터 전처리(데이터 형식별 변환 방법)
- 날짜 데이터 파생변수 생성(연, 월, 일, 시, 분, 초, 요일 등 추출)
- 날짜 데이터 인덱스화(set_index)
/** X값이 여러개일 경우 - 회귀의 과정을 거침
- 데이터 타입 맞춰주기
- DQ Check(빈도분석, 분포분석)
- 전처리(중복값, 결측치, 이상치)
- 파생변수 생성(RFM 등)
- 데이터 마트 EDA(빈도분석, 분포분석, 상관성분석, 특성분석 시각화) --> 변수선택(빈도/분포분석 결과 활용 "90%구간")
- y분포 확인 후 로그변환
- 더미화
- 다중공선성 확인 및 변수 제거(VIF; 분산팽창지수 활용)
- train, test set split
- 스케일링(StandardScaler)
- 군집화(최적 군집 수 찾고 군집화 모델 성능 평가 - 실루엣)
- 군집별 프로파일링
- 군집화 결과를 새로운 컬럼으로 추가(train, test 모두 수행)
**/
- 정상성 확인
- 차분, 변환
- ARIMA 모델 5가지 제시(ACF, PACF 활용) - 차분 1~2회, p, q < 2, p*q = 0 뭐 이런 걸로 만들면 될 듯
- 그 중 한 가지 선택 및 이유(AIC 기준)
- test set 예측
- 예측 성능평가(MAE, MAPE, MSE, RMSE 등)
- 위 평가 방법을 사용한 이유
- 직접 데이터 생성해서 예측
- 비시계열 모델링
=======================================================
=======================================================