# csv 파일을 읽어서 데이터 프레임 생성> credit str(credit)'data.frame': 1000 obs. of 17 variables:$ checking_balance : Factor w/ 4 levels " 200 DM",..: 1 3 4 1 1 4 4 3 4 3 ...$ months_loan_duration: int 6 48 12 42 24 36 24 36 12 30 ...$ credit_history : Factor w/ 5 levels "critical","good",..: 1 2 1 2 4 2 2 2 2 1 ...$ purpose : Factor w/ 6 levels "business","car",..: 5 5 4 5 2 4 5 2 5 2 ...$ amount ..
R/R 머신러닝
확률의 이해P(A): 사건(event) A가 일어날 확률P(A) = (사건 A가 발생한 횟수) / (전체 시행 횟수)상호 배타적이고 완전한(mutually exclusive and exhaustive) 사건○ 스팸 메일 / 스팸이 아닌 메일 ○ 동전 앞면 / 동전 뒷면 ○ 비가 온다 / 비가 오지 않는다P(Ac ), P(¬A): 사건 A가 일어나지 않을 확률.A의 여사건의 확률P(Ac ) = 1 - P(A) 베이즈 정리를 이용한 조건부 확률 계산 P(A|B): 사건 B가 발생한 경우 사건 A가 일어날 조건부 확률(conditional probability)P(스팸|비아그라) = (스팸 갯수) / (비아그라가 들어있는 메일 갯수) = 4 / 5 = 0.8P(비아그라|스팸) = (비아그라가 들어있는 메일 갯..
# k-NN 알고리즘을 이용한 Iris 품종 분류# k-NN 알고리즘을 구현한 패키지를 설치install.packages("class")# 패키지를 검색경로(메모리)에 로드 library(class)rm(list=ls())# class::knn(학습데이터, 테스트데이터, 학습데이터의정답, k값) # csv 파일에서 데이터프레임 생성iris
k개의 유클리드거리가 가장 가까운 데이터를 수집. 그 중 채소인 데이터가 과일인 데이터보다 많으면, 토마토를 채소로 추정. https://www.kaggle.com/uciml/iris 에서 자료 다운로드 # Ch 3. k-NN 알고리즘 ( k-Nearest Neighbor ) # 위스콘신 유방암 데이터(Wisconsin Breast Cancer Dataset) 준비wbcd 정규화 또는 표준화 필요 # 최소-최대 정규화 함수 정의 #함수 이름 normalize v3 normalize(v3)[1] 0.1011236 0.3258427 0.5505618 1.0000000 0.0000000 # 첫 번째 컬럼은 진단결과이기 때문에 정규화에서 제외. # 함수 lapply> wbcd_n wbcd_train wbcd_t..