Hướng dẫn dùng r/replace python

Chương này trình bày các bước phổ biến được sử dụng trong quá trình “làm sạch” bộ dữ liệu và cũng giải thích việc sử dụng các hàm quản lý dữ liệu thiết yếu trong R.

Để giải thích rõ hơn quá trình làm sạch dữ liệu, chương này bắt đầu từ cách nhập bộ dữ liệu thô có tên linelist và tiến hành từng bước trong quá trình làm sạch. Trong code R, quy trình này được biểu thị dưới dạng một chuỗi “pipe”, tham chiếu đến toán tử “pipe”

linelist_raw %>% 
  select[# NEW name             # OLD name
         date_infection       = `infection date`,    # rename and KEEP ONLY these columns
         date_hospitalisation = `hosp date`]
8 để chuyển tiếp từ thao tác này sang thao tác tiếp theo trong cùng một bộ dữ liệu.

Các hàm quan trọng

Cuốn sách này nhấn mạnh việc sử dụng các hàm từ hệ sinh thái của package tidyverse. Các hàm thiết yếu trong R trình bày trong chương này được liệt kê dưới đây.

Nhiều hàm thuộc về package dplyr, mà cung cấp các hàm dạng “verb” để giải quyết các thách thức trong thao tác xử lý dữ liệu [tên package được viết đầy đủ là "data frame-. dplyr là một phần trong hệ sinh thái của package tidyverse [mà bao gồm các package khác như ggplot2, tidyr, stringr, tibble, purrr, magrittr, và forcats].

linelist_raw %>% 
  select[# NEW name             # OLD name
         date_infection       = `infection date`,    # rename and KEEP ONLY these columns
         date_hospitalisation = `hosp date`]
8“pipe” [chuyển tiếp] dữ liệu từ một hàm sang hàm tiếp theomagrittr
linelist_raw 

Chủ Đề