R studios 9

R통계 : Theme #9. ggmap ( Thanks to Google)

특정 지역 중심의 지도를 출력map = get_googlemap(center = c(123.124144,37.124124),maptype ="roadmap",zoom=17,size=c(320,320) size가 작아질수록ggmap(map, extent ="device") > 지도 여백 설정(이건 여백이 없는 것)주소를 이용하여 지도 출력 (geocode의 힘을 빌리자)gc= geocode(enc2utf8("호미곶")) or ("Tokyo, Japan) 해도 되고 다양하게..lonlat = c(gc$lon, gc$lat) map = get_googlemap(center = lonlat)ggmap(map)# 마커까지 넣고 싶다면?map = get_googlemap(center = lonlat,marker =..

R studios 2024.05.27

R통계 : Theme #8. 시각화, ggplot 그래프

ggplot(data = mpg, aes(x= displ, y = hwy)) + geom_point() + xlim(3,6)----------데이터 축 , x= value값, y= value값-- + 그래프 종류 +--- 세부설정## 막대그래프geom_col()## 빈도 막대 그래프geom_bar()## 선 그래프geom_line()## 상자그림geom_boxplot()##색깔 별 그래프qplot(Sepal.Length, Petal.Length, data = iris, colour= Species,size = Petal.Width)qplot(age,circumference,data= Orange ,geom = "line",colour = Tree) myairquality $ season = factor(..

R studios 2024.05.27

R통계 : Theme #7. 시각화, 그래프

화면 분할** keyword는 plot이다.plot(10:1)split.screen(c(2,1)) // split display into two screens.split.screen(c(1,3),screen = 2)산포도x,y 그래프 라 생각하면 편하다x= seq(1,10,0.1)y=exp(x)plot(x,y)plot(x,y, main="Title..", xlabel = "x label",....)##굳이 숫자가 아니더라도plot(ToothGrowth $ len, ToothGrowth $dose) 이렇게 열 자체를 산포도 그래프로 표현하는것도 좋다.main = “ 제목”sub = “부제목”xlab and lab = “xy축 제목설정”막대그래프집단간 차이를 표현할때 깡패처럼 쓰인다.##1. 먼저 벡터 몇개..

R studios 2024.05.27

R통계 : Theme #6. Tidy.

tidyr packagetidy하다는 것은..하나의 셀에 하나의 데이터만 있다.직선적으로 데이터를 찾아야한다. 행렬로reshapinggather 열의 이름이 1999 2000 이럴때,, 그냥 year로 연도 병합하는게 좋다.이럴때 gather 함수를 활용.gather(data,'열 이름1','열 이름 2',key = "병합하고자 하는 열 1",value = "병합하고자 하는 열 2")spread()하나의 열에 너무 데이터가 짬뽕일때.예를 들어 열이름1의 데이터가 너무 짬뽕이라 보기 힘들면 열이름 1의 내부의 데이터가차라리 열이 되는 것.spread(data, '열이름1','열이름2')결측치 다루기1.drop_na() - na값 다 죽이기drop_na(data,'Na값 있는열')fill() - 열의 na값..

R studios 2024.05.27

R통계 : Theme#5. 데이터 정제 (결측치와 이상치) 다루기

결측치 정제is.na(df) 하면 df에 들어있는 녀석들 중 골라서 boolean type으로 리턴해줌.table(is.na(df)) — 몇개 있는지 파악.결측지 제거결측치가 있는 행만 추출 — filter()na값이 존재하면 평균과 같은 수학계산하는데 상당한 무리가 있다. 따라서 필터링으로 먼저 없앤다.df %>% filter(!is.na(score))df %>% filter(!is.na(Score) & !is.na(gender))## 이렇게 필터링 조건문을 두개 이상 넣어서 다 없애도 됌결측치가 하나라도 있으면 제거 - na.omit()소위 말하는 데이터의 na을 통으로 날리는거다.na.omit(df) . 해버리고 수학계산하면 아주 예쁘게 계산 가능결측치 제외함수내부에서 제거를 해주는 것.df %>%..

R studios 2024.05.27

R통계 : Theme #4. Dplyr package

filter() - 조건식으로 필터링and, or, ≥ exam %>% filter(class %in% c(1,3,5))exam안에 class 열 안에 1,3,5가 있는 녀석들만 필터링 하겠다는것그 외에도 ^ 제곱%/% 나눗셈의 몫%% 나눗셈의 나머지이런 녀석들도 연산에 활용가능select() - 필요한 데이터 선택df % select(-columnName)##columnName을 제외한 모든 열을 선택하는 데 사용됩니다.arrange() - 정렬##arrange()의 기준이 하나만 있어야하는건 아니다.exam %>% arrange(class, desc(math))>> 이렇게 두개 이상의 기준을 넣어버리면 먼저 class로 정렬 후, 그 다음 math의 내림차순으로..mutate() - 파생변수 추가ex..

R studios 2024.05.27

R 통계 : Theme #3 : 데이터 조작 ( 기본 함수)

apply 계열 함수 → 임의의 함수를 적용한 결과를 얻기 위한apply(data, margin(적용방향), function)margin은 1 or 2 값 중 하나인데, 1은 행을 기준으로, 2는 열을 기준으로 Function 적용할지를 선택한다.데이터 프레임에 임의의 함수를 적용한 결과를 얻기 위한 함수.즉, 데이터 전체에 대해 함수를 한번에 적용하는 연산 수행을 한다는 것.apply(iris[,1:4],2,sum)아이리스 1부터 4번째 열을 기준으로 다 더하겠다는 말이다.lapply or sapplylapply(data, mean) >> 걍 리스트로 변환 , sapply도 마찬가지 얘는 행렬 or 벡터로 변환tapplytapply(data,index,funtion)index = 데이터를 묶을 fact..

R studios 2024.05.27

R 통계 : Theme #2. 데이터 저장 및 불러오기

cf) 데이터가 상당히 많은 복잡한 경우 ( 반복문 활용)파일목록이 seoul_201512, seoul_201606.xlsx일때 이걸 한번에 합쳐서 Read해보자files = c(”201512”,”201606” , …..) columns =c(”상가업소번호”,”상호명”) >> 이건 내가 원하는 열들만 모아놓은거야.ds.total = null // 이게 내가 만들 df라고 할때for(i in length(files)){ filename = paste("seoul_",files[i],".xlsx",sep="") ds = read_excel(filename) ds= data.frame(ds) ds= ds[,columns] >> 내가 원하는 열만 ds에다가 가져와주기 위해 ds.total= rbind(ds.to..

R studios 2024.05.27

R통계 : Theme #1. 기본적인 데이터 타입

벡터 (1차원)x= c(1,4,6,8,9) ## c()가 생성자임#기본함수order(x) || rev(x) -- 오름차순 || 내림차순sort(x,decreasing=TRUE)range(x)mean,sd(x),length(x) #자료조작x[2] = 4 ##인덱스가 자바와는 다르게 정말 순수한 순서이다x[2> FALSE, FALSE, FALSE #같은 집합인지? (순서고려 xx)union(x,y) ## 합집합 intersect(x,y) ## 교집합 setequal(x,y) >>FALSEis.element(3,x) -- 3이 x에 있는가?##문자 자료 벡터x=rep(c("A","B","C"),times =4) ## A와 B가 4번씩 반복 총 8개 벡터가 생성unique(x) ## A,B,C 3개만 나..

R studios 2024.05.27