Internet tràn ngập dữ liệu. Tuy nhiên, việc lấy dữ liệu đó ở định dạng phù hợp mới là vấn đề thực sự. Phải làm sạch và lọc một số lần để đưa dữ liệu về định dạng lý tưởng cho việc phân tích. Tuần trước tôi đã xem qua một số bộ dữ liệu dạng bảng khá tốt trên Wikipedia. Như mọi khi, tôi đã sao chép dữ liệu và dán nó vào bảng excel. Đối với hầu hết các phần, nó hoạt động tốt, nhưng có một số trường hợp khi phương pháp sao chép-dán thông thường thất bại thảm hại
- Khi bảng thường dài và trải rộng trên một trang web hoàn chỉnh
- Khi dữ liệu không tĩnh, tôi. e. , nó được cập nhật sau khoảng thời gian đều đặn. Vì vậy, mỗi khi có sự thay đổi trong tập dữ liệu gốc, tôi phải tìm nạp lại tập dữ liệu
Đối với những tình huống như thế này, chỉ sao chép là không đủ. Cạo là một lựa chọn khác, nhưng tôi đang tìm kiếm thứ gì đó nhanh chóng, dễ dàng và không liên quan đến nhiều mã. Sau đó, tôi bắt gặp một chức năng tiện lợi trong Google Trang tính có tên là IMPORTHTML,
, lý tưởng để nhập dữ liệu từ một bảng hoặc danh sách trong trang HTML. Trong bài viết này, tôi sẽ mô tả từ đầu đến cuối quá trình tìm nạp bảng [và danh sách] vào trang tính google
Trước khi trích xuất hoặc nhập dữ liệu chưa được bạn quản lý, hãy đảm bảo rằng bạn có các quyền cần thiết. Ngoài ra, phương pháp này chỉ hoạt động nếu dữ liệu có sẵn công khai, điều đó có nghĩa là không có yêu cầu về quyền, v.v.
T bài viết của anh ấy là một phần của loạt bài hoàn chỉnh về tìm kiếm bộ dữ liệu tốt. Dưới đây là tất cả các bài viết có trong loạt bài.
Phần 1. Nhận bộ dữ liệu cho các tác vụ Phân tích dữ liệu — Tìm kiếm nâng cao của Google
Phần 2. Các trang web hữu ích để tìm tập dữ liệu cho nhiệm vụ Phân tích dữ liệu
Phần 3. Tạo bộ dữ liệu hình ảnh tùy chỉnh cho các dự án Deep Learning
Phần 4. Dễ dàng nhập các bảng HTML vào Google Trang tính
Phần 5. Trích xuất dữ liệu dạng bảng từ PDF dễ dàng với Camelot
Phần 6. Trích xuất thông tin từ các tệp XML vào khung dữ liệu Pandas
Phần 7. 5 bộ dữ liệu trong Thế giới thực để trau dồi kỹ năng Phân tích dữ liệu khám phá của bạn
cú pháp
Hình ảnh của tác giả
Trước khi sử dụng hàm, hãy tìm hiểu nhanh cú pháp của hàm IMPORTHTML
. Hàm IMPORTHTML
nhận ba tham số riêng biệt và được viết như sau
IMPORTHTML[URL, query, index]
Thông số
- URL. Đề cập đến URL của trang có bảng. Đừng quên thêm giao thức [e. g. http. //] và đảm bảo URL nằm giữa dấu ngoặc kép
- Truy vấn. truy vấn có thể là một bảng hoặc một danh sách các mục. Ví dụ: nếu bạn muốn nhập một bảng, hãy đề cập đến bảng trong dấu ngoặc kép, nếu không thì hãy đề cập đến một danh sách
- Mục lục. Đề cập đến vị trí của bảng trên trang web, bắt đầu từ 1
Cách sử dụng. Nhập bảng
Bây giờ chúng ta hãy xem cách chúng ta có thể nhập một bảng HTML được tham chiếu trong một bài viết trên Wikipedia một cách nhanh chóng và liền mạch vào một trang tính trên Google. Trang có tiêu đề. Danh sách các bộ phim gốc của Netflix và chứa thông tin về các bộ phim và chương trình khác nhau được phân phối bởi Netflix, nhà cung cấp phương tiện truyền phát trực tuyến Internet theo yêu cầu toàn cầu của Mỹ
Bước 1. Sao chép URL
Nguồn hình ảnh. Wikipedia
Bước 2. Chọn bảng cần nhập
Giả sử chúng ta muốn nhập tất cả Phim truyện, đây là bảng đầu tiên trên trang
Bước 3. Thêm công thức vào Google Sheet
Tạo Google Trang tính mới hoặc tạo tab mới trên trang tính hiện có. Nhập công thức sau vào ô chỉ định URL, truy vấn và số chỉ mục
=IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films_[2012%E2%80%932019]","table",1]
thì đấy. Toàn bộ bảng được trích xuất và điền vào bảng tính. Đây là những gì bạn nhận được trong trang tính google
Hình ảnh của tác giả
Hãy kết hợp cả ba bước trên và xem bản demo từ đầu đến cuối bên dưới
Hình ảnh của tác giả
Bạn có thể nhập danh sách theo cách tương tự. Thay đổi duy nhất là thay thế bảng từ bằng danh sách trong tham số chức năng
Tùy chỉnh đầu ra. Sử dụng chức năng truy vấn
Có nhiều việc bạn có thể làm để tùy chỉnh dữ liệu đã nhập. Điều này có thể đạt được bằng cách sử dụng hàm
=IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films_[2012%E2%80%932019]","table",1]
0 kết hợp với =IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films_[2012%E2%80%932019]","table",1]
1 Hàm =IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films_[2012%E2%80%932019]","table",1]
0 chạy Truy vấn API trực quan hóa của Google trên dữ liệu. Hãy xem một số cách để làm điều nàyGiới hạn số lượng cột đã nhập
Giả sử bạn không muốn nhập tất cả các cột, thay vào đó là một vài cột được chọn. Bạn có thể chuyển chỉ mục của các cột mong muốn. Chẳng hạn, nếu chúng ta chỉ muốn ba cột đầu tiên, chức năng của chúng ta sẽ như sau
=query[IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films","table",1],"Select Col1,Col2,Col3"]
Hình ảnh của tác giả
Hãy xem cách chúng tôi đã đính kèm hàm IMPORTHTML
với hàm
=IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films_[2012%E2%80%932019]","table",1]
2 và chỉ định các chỉ số cộtLọc dữ liệu theo cột
Một kịch bản khác là khi chúng ta muốn một số dữ liệu cụ thể, tôi. e. dữ liệu chỉ về thể loại Hài kịch. Điều này có thể được thực hiện rất dễ dàng như sau
=query[IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films","table",1],"Select * where Col2='Comedy'"]
Hình ảnh của tác giả
Kiểm tra tài liệu chính thức của hàm
=IMPORTHTML["//en.wikipedia.org/wiki/List_of_Netflix_original_films_[2012%E2%80%932019]","table",1]
3 để biết các cách sử dụng khácSự kết luận
Trong bài viết này, chúng ta đã thấy sức mạnh của hàm IMPORTHTML
và cách nó có thể được sử dụng để nhập các bảng và danh sách từ trang web, blog và các nguồn HTML khác trực tiếp vào bảng tính google. Từ đó, bạn có thể thực hiện một số tác vụ phân tích trên tập dữ liệu và lấy thông tin có ý nghĩa từ đó. Bạn cũng có thể trích xuất dữ liệu và chia sẻ với người khác để họ cũng có thể sử dụng dữ liệu đó