본문 바로가기

머신러닝3

[인프런]파이썬 머신러닝 완벽 가이드 section3 정확도(accuracy) = 예측 결과가 맞은 데이터 건수 / 전체 예측 데이터 건수 ( TP + TN / ( TP + TN + FP + FN ) ) 불균형한 레이블 값 분포에서는 왜곡. ex) 레이블 값이 0이 90%, 1이 10% 인 경우, 그냥 예측값을 무조건 0으로 하면 정확도 90% 나옴. print('Dummy Classifier의 정확도는: {0:.4f}'.format(accuracy_score(y_test y_pred))) 정밀도(precision) = Positive라고 한 것 중에 진짜 Positive인 것 ( TP / ( FP + TP ) ) Negative 인데 Positive라고 하면 큰일 나는 것. 예시 이유 스팸 메일 스팸 아닌데 스팸이라고 분류하면 큰일 주가 등락 여부 안 오.. 2022. 5. 10.
[인프런]파이썬 머신러닝 완벽 가이드 section2 사이킷런 내장 예제 datasets.load_boston() 회귀 datasets.load_breast_cancer() 분류 datasets.load_diabetes() 회규 datasets.load_digits() 분류 datasets.load_iris() 분류 데이터프레임에서 feature랑 target 값 나눠주기 + train_test_split 해주기 ftr_df = iris_df.iloc[:, :-1] tgt_df = iris_df.iloc[:, -1] X_train, X_test, y_train, y_test = train_test_split(ftr_df, tgt_df, test_size=0.3) stratified K-fold : 불균형한 분포도를 가진 레이블 데이터 집합을 위한 폴드 방식.. 2022. 5. 9.
[인프런]파이썬 머신러닝 완벽 가이드 section1 변경을 원하는 타입을 astype()으로. 주로 대용량 데이터 다룰 때, 절약을위해 형변환을 고려해야 함. array.astype() ndarray-arange, zeros, ones np.arange(10) np.zeros((3,2), dtype='int32') # shape은 아는데, 값을 모를 때 빈 상자 만들기 np.ones((3,2), default='float64') reshape array.reshape(2,5) array.reshape(-1,5) # -1은 가변적으로 알아서 처리해라라는 뜻 array1d = [0,1,2,3,4] array1d.reshape(-1,1) # [[0],[1],[2],[3],[4]] array2d = [[0],[1],[2],[3],[4]] array2d.resha.. 2022. 5. 5.