혼동행렬을 사용한 성능 측정● TP(True Positive, 참 긍정)● TN(True Negative, 참 부정) ● FP(False Positive, 거짓 긍정) ● FN(False Negative, 거짓 부정) ● 정확도(accuracy), 오류율(error rate) # Naive Bayes 알고리즘에서 스팸 메세지 분류 결과/ 확률 정리sms_results % filter(prob_spam> 0.4 & prob_spam table(sms_results$actua..
R/R 머신러닝
#Clustering (군집화) # 데이터 준비teens table(teens$gender, useNA = 'ifany') F M 22054 5222 2724 # female 변수를 데이터프레임에 추가# 성별이 'F'이고, NA가 아니면 1, 그렇지 않으면 0을 입력 - 더미코딩teens$female table(teens$female) 0 17946 22054 # nogender 변수를 데이터프레임에 추가 # gender 변수가 NA이면 1, 그렇지 않으면 0을 입력> teens$nogender table(teens$nogender) 0 127276 2724 # age의 정상 범위는 13 ~ 19라고 가정 -> 이외의 값들은 NAteens$age = 13 & teens$age summary(teens$a..
# 연관 규칙(Association Rules) 학습 # 1. 데이터 준비groceries str(groceries)'data.frame': 15295 obs. of 4 variables:$ citrus.fruit : Factor w/ 167 levels "abrasive cleaner",..: 156 165 109 102 165 1 121 102 83 113 ...$ semi.finished.bread: Factor w/ 162 levels "","abrasive cleaner",..: 161 1 161 160 14 1 1 153 1 1 ...$ margarine : Factor w/ 164 levels "","abrasive cleaner",..: 34 1 39 35 163 1 1 120 1 1 ....
Support Vector Machine: SVM 서포트 벡터 머신(SVM: support vector machine)의 목표○ 공간을 나눠서 양쪽에 매유 균질적인 분할을 생성하는 초평면(hyperplane)이라고 하는 경계를 생성하는 것 MMH(Maximum Margin Hyperplane, 최대 마진 초평면) ○ 공간 상의 두 클래스를 가장 멀리 분리하는 초평면 ○ SVM의 목표는 MMH를 찾는 것 Support Vector ○ 각 클래스에서 MMH에 가장 가까운 점들 ○ 서포트 벡터를 찾으면 MMH를 정의할 수 있다. 비선형 커널○ 데이터에 새로운 차원을 추가해 데이터를 분리하는 방법 ○ 커널 트릭을 사용하면 비선형 관계가 선형적인 관계로 나타날 수 있다. # SVM(Support Vector Ma..