k개의 유클리드거리가 가장 가까운 데이터를 수집. 그 중 채소인 데이터가 과일인 데이터보다 많으면, 토마토를 채소로 추정. https://www.kaggle.com/uciml/iris 에서 자료 다운로드 # Ch 3. k-NN 알고리즘 ( k-Nearest Neighbor ) # 위스콘신 유방암 데이터(Wisconsin Breast Cancer Dataset) 준비wbcd 정규화 또는 표준화 필요 # 최소-최대 정규화 함수 정의 #함수 이름 normalize v3 normalize(v3)[1] 0.1011236 0.3258427 0.5505618 1.0000000 0.0000000 # 첫 번째 컬럼은 진단결과이기 때문에 정규화에서 제외. # 함수 lapply> wbcd_n wbcd_train wbcd_t..
전체 글
Every Morning, Enjoy Coding!Goals데이터 프레임, 데이터 프레임과 리스트의 차이점, 데이터 구조 확인히스토그램, 분산표준편차2개 이상 변수들의 상관관계, 이원 교차표, prop. table, CrossTable Data Frame 데이터 프레임 : 행(row) 과 열(column)을 갖는# 데이터베이스의 테이블 또는 엑셀의 스프레드시트와 같은 형식의 데이터# 각 컬럼에는 같은 타입의 값들만 저장할 수 있음. df1 df1[1,1][1] 1 > df1[1:3,2][1] aaa bbb cccLevels: aaa bbb ccc > df1[ ,3][1] 11 22 33 > df1$a[1] 1 2 3 df1 df1[1:3,2][1] "aaa" "bbb" "ccc" 데이터 프레임과 리스트의 차이점names var(mydata$price) ..
GoalsR Data Types, Vector vs Scalar, c ( ), seq ( ), factor, Nominal Factor, Ordinal Factor연산자, matrix, 이름 지정, Array, Projection, dimnameslist, list 좌표 입력법 R Data Typesvector(벡터) : 한가지 타입의 값 여러개를 저장할 수 있는 1차원 배열1차원 배열. 인덱스 한 개.scalar(스칼라) : 한개의 값만 갖는 벡터. c() : combine> a a[1][1] 1 seq(): sequence> b = seq(1,10,2)> b[][1] 1 3 5 7 9 vector는 다른 타입의 값들을 저장할 수는 없음.> c 숫자> 논리 타입 > d e e[1] "ONE" "1" "..
# 인터렉티브 그래프#패키지 plotly : https://plot.ly/ggplot2/# 주식 변동 그래프 만들 때 주로 사용 : http://rstudio.github.io/dygraphs/ install.packages('plotly')library(plotly) # 배기량(displ), 구동방식(drv)과 고속도로 연비(hwy)와의 관계g = ggplot(data = mpg, mapping = aes(x = displ, y = hwy, color = drv)) + geom_point() # plotly::ggplotly(ggplot객체)ggplotly(g) # 그래프 상의 점이 가진 모든 정보를 보여줌 # 구동방식별 boxplotg = ggplot(data = mpg, mapping = aes(x..