R 4

R통계 : Theme#5. 데이터 정제 (결측치와 이상치) 다루기

결측치 정제is.na(df) 하면 df에 들어있는 녀석들 중 골라서 boolean type으로 리턴해줌.table(is.na(df)) — 몇개 있는지 파악.결측지 제거결측치가 있는 행만 추출 — filter()na값이 존재하면 평균과 같은 수학계산하는데 상당한 무리가 있다. 따라서 필터링으로 먼저 없앤다.df %>% filter(!is.na(score))df %>% filter(!is.na(Score) & !is.na(gender))## 이렇게 필터링 조건문을 두개 이상 넣어서 다 없애도 됌결측치가 하나라도 있으면 제거 - na.omit()소위 말하는 데이터의 na을 통으로 날리는거다.na.omit(df) . 해버리고 수학계산하면 아주 예쁘게 계산 가능결측치 제외함수내부에서 제거를 해주는 것.df %>%..

R studios 2024.05.27

R 통계 : Theme #3 : 데이터 조작 ( 기본 함수)

apply 계열 함수 → 임의의 함수를 적용한 결과를 얻기 위한apply(data, margin(적용방향), function)margin은 1 or 2 값 중 하나인데, 1은 행을 기준으로, 2는 열을 기준으로 Function 적용할지를 선택한다.데이터 프레임에 임의의 함수를 적용한 결과를 얻기 위한 함수.즉, 데이터 전체에 대해 함수를 한번에 적용하는 연산 수행을 한다는 것.apply(iris[,1:4],2,sum)아이리스 1부터 4번째 열을 기준으로 다 더하겠다는 말이다.lapply or sapplylapply(data, mean) >> 걍 리스트로 변환 , sapply도 마찬가지 얘는 행렬 or 벡터로 변환tapplytapply(data,index,funtion)index = 데이터를 묶을 fact..

R studios 2024.05.27

R 통계 : Theme #2. 데이터 저장 및 불러오기

cf) 데이터가 상당히 많은 복잡한 경우 ( 반복문 활용)파일목록이 seoul_201512, seoul_201606.xlsx일때 이걸 한번에 합쳐서 Read해보자files = c(”201512”,”201606” , …..) columns =c(”상가업소번호”,”상호명”) >> 이건 내가 원하는 열들만 모아놓은거야.ds.total = null // 이게 내가 만들 df라고 할때for(i in length(files)){ filename = paste("seoul_",files[i],".xlsx",sep="") ds = read_excel(filename) ds= data.frame(ds) ds= ds[,columns] >> 내가 원하는 열만 ds에다가 가져와주기 위해 ds.total= rbind(ds.to..

R studios 2024.05.27

R통계 : Theme #1. 기본적인 데이터 타입

벡터 (1차원)x= c(1,4,6,8,9) ## c()가 생성자임#기본함수order(x) || rev(x) -- 오름차순 || 내림차순sort(x,decreasing=TRUE)range(x)mean,sd(x),length(x) #자료조작x[2] = 4 ##인덱스가 자바와는 다르게 정말 순수한 순서이다x[2> FALSE, FALSE, FALSE #같은 집합인지? (순서고려 xx)union(x,y) ## 합집합 intersect(x,y) ## 교집합 setequal(x,y) >>FALSEis.element(3,x) -- 3이 x에 있는가?##문자 자료 벡터x=rep(c("A","B","C"),times =4) ## A와 B가 4번씩 반복 총 8개 벡터가 생성unique(x) ## A,B,C 3개만 나..

R studios 2024.05.27