분류 전체보기 124

R통계 : Theme #8. 시각화, ggplot 그래프

ggplot(data = mpg, aes(x= displ, y = hwy)) + geom_point() + xlim(3,6)----------데이터 축 , x= value값, y= value값-- + 그래프 종류 +--- 세부설정## 막대그래프geom_col()## 빈도 막대 그래프geom_bar()## 선 그래프geom_line()## 상자그림geom_boxplot()##색깔 별 그래프qplot(Sepal.Length, Petal.Length, data = iris, colour= Species,size = Petal.Width)qplot(age,circumference,data= Orange ,geom = "line",colour = Tree) myairquality $ season = factor(..

R studios 2024.05.27

R통계 : Theme #7. 시각화, 그래프

화면 분할** keyword는 plot이다.plot(10:1)split.screen(c(2,1)) // split display into two screens.split.screen(c(1,3),screen = 2)산포도x,y 그래프 라 생각하면 편하다x= seq(1,10,0.1)y=exp(x)plot(x,y)plot(x,y, main="Title..", xlabel = "x label",....)##굳이 숫자가 아니더라도plot(ToothGrowth $ len, ToothGrowth $dose) 이렇게 열 자체를 산포도 그래프로 표현하는것도 좋다.main = “ 제목”sub = “부제목”xlab and lab = “xy축 제목설정”막대그래프집단간 차이를 표현할때 깡패처럼 쓰인다.##1. 먼저 벡터 몇개..

R studios 2024.05.27

R통계 : Theme #6. Tidy.

tidyr packagetidy하다는 것은..하나의 셀에 하나의 데이터만 있다.직선적으로 데이터를 찾아야한다. 행렬로reshapinggather 열의 이름이 1999 2000 이럴때,, 그냥 year로 연도 병합하는게 좋다.이럴때 gather 함수를 활용.gather(data,'열 이름1','열 이름 2',key = "병합하고자 하는 열 1",value = "병합하고자 하는 열 2")spread()하나의 열에 너무 데이터가 짬뽕일때.예를 들어 열이름1의 데이터가 너무 짬뽕이라 보기 힘들면 열이름 1의 내부의 데이터가차라리 열이 되는 것.spread(data, '열이름1','열이름2')결측치 다루기1.drop_na() - na값 다 죽이기drop_na(data,'Na값 있는열')fill() - 열의 na값..

R studios 2024.05.27

R통계 : Theme#5. 데이터 정제 (결측치와 이상치) 다루기

결측치 정제is.na(df) 하면 df에 들어있는 녀석들 중 골라서 boolean type으로 리턴해줌.table(is.na(df)) — 몇개 있는지 파악.결측지 제거결측치가 있는 행만 추출 — filter()na값이 존재하면 평균과 같은 수학계산하는데 상당한 무리가 있다. 따라서 필터링으로 먼저 없앤다.df %>% filter(!is.na(score))df %>% filter(!is.na(Score) & !is.na(gender))## 이렇게 필터링 조건문을 두개 이상 넣어서 다 없애도 됌결측치가 하나라도 있으면 제거 - na.omit()소위 말하는 데이터의 na을 통으로 날리는거다.na.omit(df) . 해버리고 수학계산하면 아주 예쁘게 계산 가능결측치 제외함수내부에서 제거를 해주는 것.df %>%..

R studios 2024.05.27

R통계 : Theme #4. Dplyr package

filter() - 조건식으로 필터링and, or, ≥ exam %>% filter(class %in% c(1,3,5))exam안에 class 열 안에 1,3,5가 있는 녀석들만 필터링 하겠다는것그 외에도 ^ 제곱%/% 나눗셈의 몫%% 나눗셈의 나머지이런 녀석들도 연산에 활용가능select() - 필요한 데이터 선택df % select(-columnName)##columnName을 제외한 모든 열을 선택하는 데 사용됩니다.arrange() - 정렬##arrange()의 기준이 하나만 있어야하는건 아니다.exam %>% arrange(class, desc(math))>> 이렇게 두개 이상의 기준을 넣어버리면 먼저 class로 정렬 후, 그 다음 math의 내림차순으로..mutate() - 파생변수 추가ex..

R studios 2024.05.27

R 통계 : Theme #3 : 데이터 조작 ( 기본 함수)

apply 계열 함수 → 임의의 함수를 적용한 결과를 얻기 위한apply(data, margin(적용방향), function)margin은 1 or 2 값 중 하나인데, 1은 행을 기준으로, 2는 열을 기준으로 Function 적용할지를 선택한다.데이터 프레임에 임의의 함수를 적용한 결과를 얻기 위한 함수.즉, 데이터 전체에 대해 함수를 한번에 적용하는 연산 수행을 한다는 것.apply(iris[,1:4],2,sum)아이리스 1부터 4번째 열을 기준으로 다 더하겠다는 말이다.lapply or sapplylapply(data, mean) >> 걍 리스트로 변환 , sapply도 마찬가지 얘는 행렬 or 벡터로 변환tapplytapply(data,index,funtion)index = 데이터를 묶을 fact..

R studios 2024.05.27

R 통계 : Theme #2. 데이터 저장 및 불러오기

cf) 데이터가 상당히 많은 복잡한 경우 ( 반복문 활용)파일목록이 seoul_201512, seoul_201606.xlsx일때 이걸 한번에 합쳐서 Read해보자files = c(”201512”,”201606” , …..) columns =c(”상가업소번호”,”상호명”) >> 이건 내가 원하는 열들만 모아놓은거야.ds.total = null // 이게 내가 만들 df라고 할때for(i in length(files)){ filename = paste("seoul_",files[i],".xlsx",sep="") ds = read_excel(filename) ds= data.frame(ds) ds= ds[,columns] >> 내가 원하는 열만 ds에다가 가져와주기 위해 ds.total= rbind(ds.to..

R studios 2024.05.27

R통계 : Theme #1. 기본적인 데이터 타입

벡터 (1차원)x= c(1,4,6,8,9) ## c()가 생성자임#기본함수order(x) || rev(x) -- 오름차순 || 내림차순sort(x,decreasing=TRUE)range(x)mean,sd(x),length(x) #자료조작x[2] = 4 ##인덱스가 자바와는 다르게 정말 순수한 순서이다x[2> FALSE, FALSE, FALSE #같은 집합인지? (순서고려 xx)union(x,y) ## 합집합 intersect(x,y) ## 교집합 setequal(x,y) >>FALSEis.element(3,x) -- 3이 x에 있는가?##문자 자료 벡터x=rep(c("A","B","C"),times =4) ## A와 B가 4번씩 반복 총 8개 벡터가 생성unique(x) ## A,B,C 3개만 나..

R studios 2024.05.27

About BinaryHeap

차근차근 여러가지 자료 구조들을  하나씩 소개해볼까 한다. 우선순위 큐?우선순위 큐(priority queue)는 자료 구조의 한 종류로서, 큐(queue)와 트리(tree) 두 개념 모두와 관련이 있다. 구체적으로 설명하자면: 큐와의 관계큐(queue)는 FIFO(First In, First Out) 방식으로 작동하는 자료 구조다. 즉, 먼저 들어온 요소가 먼저 나가는 구조인데 .우선순위 큐는 큐의 특수한 형태로, 각 요소가 우선순위를 가지며, 요소가 들어온 순서가 아니라 우선순위에 따라 나가는 방식이다. ( 들어온 순서가 아닌 우선순위를 매기는 방식) 우선순위가 높은 요소가 먼저 나갑니다.따라서, 우선순위 큐는 큐의 개념을 확장한 것으로 볼 수 있다.트리와의 관계우선순위 큐는 내부적으로 다양한 자료 ..

최근들어 본 가장 현실적인 가족영화 <교토에서 온 편지>

다음 날 아침에 시험이 있었는데, 그 전날 공부하다 너무 짜증이나 시청했던 기억에 남는 영화다. 몇가지 포인트로 정리해서 작성을 하겠다.일단 기본적으로 상당히 감동적이며 현실적인 가족상을 다루는 영화다.아마 20대,30대 . 부모님의 시대가 가고 자식의 시대가 오는 시점의 나이인 우리가 봐야할 영화라고 생각한다.  #1. 배경이 촬영지의 배경은 부산이다. 여기서 '혜영'은 서울에서 일을 하다 자신의 고향인 부산으로 돌아와 휴식기간을 갖고, 나머지 자매들인 혜진 혜주과 어머니는 부산에서 거주한다. 서울에서 거주했던 혜영이 기존 부산에서 쭉 살았던 자매들과의 괴리, 그리고 서울로 상경하고 싶은 자매들과 혜영의 괴리. 그들을 지켜보는 치매 초기의 어머니.   #2. 부양의 의무, 치매자매들은 한번도 겪지 못했..

Cinema_Review 2024.05.02