본문 바로가기

[코드스테이츠]AI18

[S1-Week2]Hypothesis Test 2 Warm-up 카이 검정 : 관측값(Observed)과 예측값(Expected) 사이의 검정 T-test는 모집단의 분포가 정규분포인 걸 알 때, 카이 검정은 모를 때. Session(N112) T-test는 독립성, 등분산성,정규성이 가정 정규성 확인 from scipy.stats import normaltest import numpy as np sample = np.random.poisson(5, 1000) normaltest(sample) #정규성 확인 오차의 종류 : 1종이 더 위험(귀무가설이 기각되어야 하는데, 채택해버림) 모집단이 무슨 분포를 따르는 지 모르는 경우(Categorical한 데이터를 위한, 혹은 극단적 outlier가 있을 때) Spearman correlation Chisqua.. 2022. 4. 6.
[AI 부트캠프]1주차 총 복습 컬럼을 인덱스로 지정 df.set_index('컬럼명', inplace = True) 인덱스, 컬럼 추가 df['칼럼명'] = 값 아무거나 써도 다 같은 값으로 들어감 df.loc['인덱스명'] = 값 아무거나 써도 다 같은 값으로 들어감 일정 수준 이상이나 이하의 값만 보고 싶다 df[df 연산자 숫자] #하면 데이터 프레임에 그 조건에 True 인지 False 인지 나옴 #총 몇 개인지 알고 싶다? df[df 연산자 숫자].count().sum() 값 빈도수 확인 df['컬럼명'].value_counts() 삭제 #행 삭제 df.drop(인덱스 번호) #열 삭제 df.drop(['컬럼명'], axis = 1) 기초통계량 = 평균, 최대/최소, 중앙값, 사분위 수 # 숫자형일때 df['컬럼명'].mea.. 2022. 4. 1.
[S1-Week1]Basic Derivative Warm-up Session(N113) 편미분 : 미지수 2개 일 때 chain rule : 함수 안에 함수가 있을 때(합성함수) 경사하강법 : 오차 함수를 가장 줄일 수 있는 a, b를 찾는 것. 오차 함수(2차 함수)는 잔차 제곱해서 N-1로 나눔. 오차 함수의 기울기가 0이 되는 a, b 구하기 def gradient_descent(X, y, lr = 0.05, epoch = 10): a, b = 0.33, 0.48 # 임의 선택한 파라미터 a, b N = len(X) # 샘플 갯수 for _ in range(epoch): f = y - (a*X + b) # a와 b를 업데이트 합니다 a -= lr * (-2 * X.dot(f).sum() / N) b -= lr * (-2 * f.sum() / N).. 2022. 3. 31.
[S1-Week1]Data Manipulation Warm-up Tidy Data는 각 변수가 열, 관측치가 행 Session(N113) concat은 두 df를 그냥 합침 pandas에서는 concat 사용하면 기본적으로 행으로 붙임(밑으로 더해짐) pd.concat([df1, df2]) #열로는 pd.concat([df1, df2], axis = 1) merge는 두 df의 공통된 부분을 기반으로 합 x1.merge(x2) conditioning 하는 법(조건 거는 법) 변수 = (df[feature] ~~ condition) Wide Data에서 Tidy Data로 만들고 싶으면 .melt() tidy1 = tidy1.melt(id_vars = 'index', value_vars = ['A', 'B'] Tidy Data에서 Wide Data로 만드.. 2022. 3. 30.