Computer Science 72

[R package] ggplot 오브젝트를 쉽게 합쳐주는 patchwork

R에서 그림을 그릴 때 주로 ggplot2를 사용한다. 이때 다수의 그림을 그려야하는 상황에서 그림 하나씩을 따로 출력하거나 저장할 수도 있지만, 미리 합쳐두고 출력하거나 저장하면 더 간단히 자료 정리가 가능하다. 이럴 때 활용할 수 있는 패키지로 patchwork가 있다. https://patchwork.data-imaginist.com/ The Composer of Plots The ggplot2 package provides a strong API for sequentially building up a plot, but does not concern itself with composition of multiple plots. patchwork is a package that expands the A..

Computer Science/R 2023.10.09

[Jupyter] 주피터에서 Dataframe 이쁘게 출력하기 및 더 많은 행과 열 확인 (R, Python)

Dataframe 이쁘게 출력하기 R이든 Python이든 Jupyter에서 코드 cell 마지막 줄에서 DataFrame을 불러오면 이쁘게 Dataframe이 출력된다. 이는 아래 그림과 같이 단순히 print로 dataframe을 출력했을 때와 다르다. 코드로 Dataframe을 이쁘게 출력하기 위해서는 R에서는 IRdisplay::display(df) Python에서는 from IPython.display import display, HTML display(df) # display(HTML(df.to_html())) 로 할 수 있다 [1]. Dataframe의 더 많은 행과 열 확인 한편, 열의 수나 행의 수가 너무 많다면, Jupyter에서는 중간을 생략하고 처음 부분과 끝 부분만 보여준다. 이런 ..

[Jupyter] 주피터에서 Table of contents (TOCs) 확인

Jupyter에서 코드를 작성할 때 마크다운과 함께 정리를 하는데, 이때 마크다운에서 작성한 제목을 table of contents로 한번에 확인할 수 있다. 왼쪽에 있는 창에서 세 번째 버튼을 클릭하면 table of contents를 확인할 수 있고, 항목을 누르면 해당 위치로 바로 이동할 수 있다. 작성한 코드가 너무 길 때 유용하게 사용할 수 있는 방법이었다.

[Linux] 같은 파일인지 확인할 때 쓸 수 있는 md5sum 명령어

종종 큰 파일을 다운 받을 때, 중간에 파일에 문제가 생기지는 않았을까 의심이 될 때가 있다. 그럴 때 md5sum 명령어를 활용하면 좋다. 이는 파일의 MD5 hash를 계산해주는데 서로 다른 파일이 같은 MD5 hash를 가질 확률은 굉장히 낮다 [1]. 그래서 이를 이용하여 서로 같은 파일인지 확인할 수 있다. $ touch test.txt $ md5sum test.txt d41d8cd98f00b204e9800998ecf8427e test.txt $ echo "HI" > test.txt $ cat test.txt HI $ md5sum test.txt 39d2b1ae41c609d04d9bbcde036940d8 test.txt $ mv test.txt test2.txt $ md5sum test2.txt..

[R] 색깔 팔레트를 통한 Figure 색 지정 (RColorBrewer 등)

R로 데이터를 만들 때 색깔을 어떻게 할지 고민이 될 때가 많다. 이때 RColorBrewer 패키지를 사용하면 원하는 색깔 팔레트를 골라서 이쁜 색감의 figure를 그릴 수 있다 (https://r-graph-gallery.com/38-rcolorbrewers-palettes.html). 색깔이 어떤식으로 나오는지 미리 보기 위해서는 아래 사이트를 이용할 수 있다. https://colorbrewer2.org/#type=sequential&scheme=BuGn&n=3 ColorBrewer: Color Advice for Maps colorbrewer2.org 한편, 많은 수의 카테고리 데이터를 다룰 때 색깔이 구분이 안되는 경우가 종종 있다. 이를 해결하기 위한 방법 중 다음의 stackoverflo..

Computer Science/R 2022.10.01

[R] 데이터 프레임 (Data Frames) 다루기

Python이든 R이든 데이터 프레임 (Data Frames)은 데이터 분석 시 가장 잘 다뤄지는 형식 중 하나이다. 이번 포스팅에서는 R에서 데이터 프레임을 다루는 기본적인 코드들을 정리하였다. 기본 코드 library(dplyr) library(tidyverse) # Generate a data frame. df % filter(column %in% 'value1') # Pull df %>% pull(column1) # return a list of values from 'column1' # Ordering df %>% arrange(-A) # same with dplyr::arrange(df, -A) # Merge rownames(df) = c(1,2,3,4,5) df2

Computer Science/R 2022.07.02

[GitHub] 폴더 내 코드를 GitHub에 백업하는 방법

아래의 과정을 거쳐 로컬 컴퓨터의 특정 폴더에 들어있는 코드 전부를 GitHub에 백업할 수 있다. 1. GitHub에서 repository 생성하기 우상단의 +를 클릭 > [New repository] > Repository 이름 입력 > (외부로 공유하고 싶지 않을 시 Private 체크) > [Create repository] 2. GitHub에서 personalized token 생성 [Settings]>[Developers settings]>[Personal access tokens]>[Generate new token] Note 및 적절한 scopes (repo 등) 선택 후 [Generate token] 생성된 [Token] 복사 3. 로컬 컴퓨터의 폴더 내 코드를 GitHub에 업로드 로컬..

[GitHub] Gist를 활용한 코드 (Jupyter notebook) 공유

티스토리 블로그에서도 코드블럭을 사용하여 간단한 코드를 공유할 수 있지만, Jupyter notebook file(.ipynb)은 공유하기 어려운 단점이 있다. 이때 GitHub Gist를 활용하면 Jupyter notebook file을 깔끔한 형식으로 공유할 수 있어서 코드 뿐 아니라 실행 결과 등을 한번에 확인할 수 있다는 장점이 있다. GitHub Gist를 활용하는 방법은 굉장히 간단하다. 먼저 GitHub에 들어가서 [New gist]를 클릭한다. 그러면 아래와 같은 창이 나온다. [Gist description]을 통해 코드 설명을 적을 수 있고, [Add file]을 통해 여러 개의 파일을 한번에 올릴 수도 있다. Jupyter notebook을 작성한 후 해당 파일(220226_first..

[용어 설명] 파라미터(Parameter)와 하이퍼 파라미터(Hyperparameter)의 구분

머신러닝 - 13. 파라미터(Parameter)와 하이퍼 파라미터(Hyper parameter) 파라미터와 하이퍼 파라미터는 명확히 다른 개념입니다. 하지만 많은 사람들이 두 단어를 혼용해서 쓰고 있습니다. 특히, 하이퍼 파라미터를 파라미터라 칭하는 오류가 많습니다. 파라미터와 bkshin.tistory.com 위 블로그 글에 둘의 구분이 잘 정리되어 있다. 결론적으로 어떤 프로그램을 돌릴 때 처음 정해서 넣어주는 값은 '하이퍼 파라미터'라고 불러야하고, 분석이 진행되면서 정해지는 값은 '파라미터'라고 부르면 될 것 같다. Reference https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-13-%ED%8C%8C%EB%9D%BC%..

[Jupyter] JupyterLab에서 Python과 R을 함께 사용하기

Jupyter에서 Python과 R을 하나의 .ipynb 파일에서 사용할 수 있는 방법이 있다. 물론 Python과 R을 커널을 일일이 바꿔가며 사용할 수도 있지만, 매번 그러기 번거로우니... 아래의 예시를 참고하자. 1번 cell: Python에서 list를 만들어서 출력한 모습. 2번 cell: R과의 연결을 위해 extension을 load 3번 cell: R을 연결하여 Python에서 생성한 list를 넘겨준 모습. 4번 cell: 한번 데이터를 R로 넘겨줬다면 다시 넘겨주지 않아도 데이터를 사용할 수 있다. 즉, rpy2를 이용해서 R을 연결하고, %%R을 cell 앞에 달아두면 R을 이용하여 데이터를 분석할 수 있다.

728x90
반응형