Quét web là hành động trích xuất dữ liệu, thông tin hoặc hình ảnh từ một trang web bằng phương pháp tự động. Hãy nghĩ về nó như sao chép và dán hoàn toàn tự động
Chúng tôi viết hoặc sử dụng một ứng dụng để truy cập các trang web mà chúng tôi muốn và tạo một bản sao của những thứ cụ thể mà chúng tôi muốn từ các trang web đó. Nó chính xác hơn nhiều so với việc tải xuống toàn bộ trang web
Mục lục
Giống như bất kỳ công cụ nào, việc quét web có thể được sử dụng cho mục đích tốt hoặc xấu. Một số lý do tốt hơn để tìm kiếm các trang web sẽ xếp hạng nó trong một công cụ tìm kiếm dựa trên nội dung, so sánh giá mua sắm hoặc theo dõi thông tin thị trường chứng khoán. Bạn thậm chí có thể sử dụng nó như một công cụ nghiên cứu
Làm cách nào tôi có thể cạo các trang web bằng Excel?
Dù bạn có tin hay không, Excel đã có khả năng trích xuất dữ liệu từ các trang web từ lâu, ít nhất là từ Excel 2003. Chỉ là việc quét web là điều mà hầu hết mọi người không nghĩ tới, chứ chưa nói đến việc sử dụng chương trình bảng tính để thực hiện công việc. Nhưng nó dễ dàng và mạnh mẽ một cách đáng ngạc nhiên. Hãy tìm hiểu cách nó được thực hiện bằng cách tạo một bộ sưu tập các phím tắt Microsoft Office
Tìm các trang web bạn muốn cạo
Điều đầu tiên chúng tôi sẽ làm là tìm các trang web cụ thể mà chúng tôi muốn lấy thông tin. Hãy truy cập nguồn và tìm kiếm tại https. //ủng hộ. văn phòng. com/. Chúng tôi sẽ sử dụng cụm từ tìm kiếm “phím tắt thường dùng”. Chúng tôi có thể làm cho nó cụ thể hơn bằng cách sử dụng tên của ứng dụng cụ thể, chẳng hạn như Outlook, Excel, Word, v.v. Có thể nên đánh dấu trang kết quả để chúng tôi có thể dễ dàng quay lại đó
Nhấp vào kết quả tìm kiếm, “Phím tắt trong Excel cho Windows”. Khi ở trên trang đó, hãy tìm danh sách các phiên bản Excel và nhấp vào Phiên bản mới hơn. Bây giờ chúng tôi đang làm việc với những gì mới nhất và tốt nhất
Chúng tôi có thể quay lại trang kết quả tìm kiếm của mình và mở kết quả cho tất cả các ứng dụng Office khác trong tab của riêng chúng và đánh dấu chúng. Đó là một ý tưởng hay, ngay cả đối với bài tập này. Đây là nơi mà hầu hết mọi người sẽ dừng lại trong việc thu thập các phím tắt Office, nhưng không phải chúng tôi. Chúng tôi sẽ đưa chúng vào Excel để chúng tôi có thể làm bất cứ điều gì chúng tôi muốn với chúng, bất cứ khi nào chúng tôi muốn
Mở Excel và Scrape
Mở Excel và bắt đầu một sổ làm việc mới. Lưu sổ làm việc dưới dạng Phím tắt Office. Nếu bạn có OneDrive, hãy lưu nó vào đó để tính năng AutoSave hoạt động
Sau khi sổ làm việc được lưu, bấm vào tab Dữ liệu
Trong dải băng của tab Dữ liệu, nhấp vào Từ Web
Cửa sổ Trình hướng dẫn Từ Web sẽ mở ra. Đây là nơi chúng tôi đặt địa chỉ web hoặc URL của trang web mà chúng tôi muốn thu thập dữ liệu. Chuyển sang trình duyệt web của bạn và sao chép URL
Dán URL vào trường URL của trình hướng dẫn Từ trang web. Chúng tôi có thể chọn sử dụng cái này ở chế độ Cơ bản hoặc Nâng cao. Chế độ Nâng cao cho chúng ta nhiều tùy chọn hơn về cách truy cập dữ liệu từ trang web. Đối với bài tập này, chúng ta chỉ cần chế độ Cơ bản. Nhấp vào OK
Bây giờ Excel sẽ cố gắng kết nối với trang web. Điều này có thể mất một vài giây. Chúng tôi sẽ thấy một cửa sổ tiến trình, nếu có
Cửa sổ Điều hướng sẽ mở ra và chúng ta sẽ thấy danh sách các bảng từ trang web ở bên trái. Khi chúng tôi chọn một, chúng tôi sẽ thấy bản xem trước bảng ở bên phải. Hãy chọn bảng phím tắt thường dùng
Chúng tôi có thể nhấp vào tab Chế độ xem web để xem trang web thực tế, nếu chúng tôi cần tìm kiếm bảng mà chúng tôi muốn. Khi chúng tôi tìm thấy nó, chúng tôi có thể nhấp vào nó và nó sẽ được chọn để nhập
Bây giờ, chúng tôi nhấp vào nút Tải ở cuối cửa sổ này. Có những tùy chọn khác mà chúng tôi có thể chọn, những tùy chọn này phức tạp hơn và nằm ngoài phạm vi thực hiện lần cạo đầu tiên của chúng tôi. Chỉ cần biết rằng họ đang ở đó. Khả năng quét web của Excel rất mạnh mẽ
Bảng web sẽ được tải trong Excel sau vài giây. Chúng ta sẽ thấy dữ liệu ở bên trái, nơi có số 1 trong hình bên dưới. Số 2 bôi đậm Query dùng để lấy dữ liệu từ website. Khi chúng tôi có nhiều truy vấn trong sổ làm việc, đây là nơi chúng tôi chọn truy vấn chúng tôi cần sử dụng
Lưu ý rằng dữ liệu đi vào bảng tính dưới dạng bảng Excel. Nó đã được thiết lập để chúng tôi có thể lọc hoặc sắp xếp dữ liệu
Chúng tôi có thể lặp lại quy trình này cho tất cả các trang web khác có phím tắt Office mà chúng tôi muốn cho Outlook, Word, Access, PowerPoint và bất kỳ ứng dụng Office nào khác
Giữ dữ liệu đã cạo hiện tại trong Excel
Như một phần thưởng cho bạn, chúng ta sẽ tìm hiểu cách giữ cho dữ liệu đã cạo của chúng ta luôn mới trong Excel. Đây là một cách tuyệt vời để minh họa mức độ mạnh mẽ của Excel đối với việc quét dữ liệu. Ngay cả với điều này, chúng tôi chỉ thực hiện thao tác cạo cơ bản nhất mà Excel có thể thực hiện
Đối với ví dụ này, hãy sử dụng trang web thông tin chứng khoán như https. //www. cnbc. com/cổ phiếu/
Xem lại những gì chúng tôi đã làm trước đây, sao chép và dán URL mới từ thanh địa chỉ
Bạn sẽ đến cửa sổ Điều hướng và xem các bảng có sẵn. Hãy chọn Major U. S. Chỉ số chứng khoán
Sau khi dữ liệu được cạo, chúng tôi sẽ thấy bảng tính sau
Ở bên phải, chúng tôi thấy truy vấn cho Major U. S. chỉ số chứng khoán. Chọn cái đó để nó được đánh dấu. Đảm bảo rằng chúng tôi đang ở trong tab Công cụ bảng và trong khu vực Thiết kế. Sau đó bấm vào mũi tên xuống bên dưới Làm mới. Sau đó bấm vào Thuộc tính kết nối
Trong cửa sổ Thuộc tính truy vấn, trong tab Sử dụng, chúng ta có thể kiểm soát cách thông tin này làm mới. Chúng tôi có thể đặt một khoảng thời gian cụ thể để làm mới hoặc để làm mới khi chúng tôi mở sổ làm việc vào lần tiếp theo hoặc để làm mới trong nền hoặc bất kỳ sự kết hợp nào của những điều này. Khi chúng tôi chọn những gì chúng tôi cần, hãy nhấp vào OK để đóng cửa sổ và tiếp tục
Đó là nó. Giờ đây, bạn có thể theo dõi giá cổ phiếu, tỷ số thể thao hoặc bất kỳ dữ liệu nào khác thường xuyên thay đổi từ bảng tính Excel. Nếu bạn thông thạo các phương trình và hàm Excel, bạn có thể làm hầu hết mọi thứ bạn muốn với dữ liệu
Có thể cố gắng xác định xu hướng chứng khoán, điều hành một hồ bơi thể thao giả tưởng tại nơi làm việc hoặc có thể chỉ cần theo dõi thời tiết. Ai biết?