Web Scraping là một quá trình trích xuất dữ liệu từ các trang web. Bot là một đoạn mã sẽ tự động hóa nhiệm vụ của chúng tôi. Do đó, bot quét web là một chương trình sẽ tự động quét một trang web để lấy dữ liệu, dựa trên các yêu cầu của chúng tôi.
mô-đun cần thiết
- bs4. Beautiful Soup[bs4] là một thư viện Python để lấy dữ liệu ra khỏi các tệp HTML và XML. Mô-đun này không được tích hợp sẵn với Python. Để cài đặt loại này, lệnh dưới đây trong thiết bị đầu cuối
cài đặt pip bs4
- yêu cầu. Yêu cầu cho phép bạn gửi HTTP/1. 1 yêu cầu cực kỳ dễ dàng. Mô-đun này cũng không tích hợp sẵn với Python. Để cài đặt loại này, lệnh dưới đây trong thiết bị đầu cuối
yêu cầu cài đặt pip
- selen. Selenium là một trong những công cụ kiểm thử tự động phổ biến nhất. Nó có thể được sử dụng để tự động hóa các trình duyệt như Chrome, Firefox, Safari, v.v.
cài đặt selen
Phương pháp 1. Sử dụng Selenium
Chúng tôi cần cài đặt trình điều khiển chrome để tự động hóa bằng selen, nhiệm vụ của chúng tôi là tạo một bot sẽ liên tục quét trang web tin tức google và hiển thị tất cả các tiêu đề cứ sau 10 phút
Triển khai từng bước
Bước 1. Trước tiên, chúng tôi sẽ nhập một số mô-đun cần thiết
Python3
# These are the imports to be made
import
time
from
selenium
import
webdriver
from
datetime
import
datetime
Bước 2. Bước tiếp theo là mở trang web cần thiết
Python3
import
1
import
2import
3 import
4import
5
import
6import
3 import
8import
9
time
0
time
1
time
2import
3 time
4
time
0
time
6
time
7
đầu ra
Bước 3. Trích xuất tiêu đề tin tức từ trang web, để trích xuất một phần cụ thể của trang, chúng tôi cần XPath của nó, có thể truy cập phần này bằng cách nhấp chuột phải vào phần tử được yêu cầu và chọn Kiểm tra trong thanh thả xuống.
Sau khi nhấn Inspect một cửa sổ hiện ra. Từ đó, chúng ta phải sao chép các phần tử XPath đầy đủ để truy cập nó
Ghi chú. Bạn có thể không phải lúc nào cũng nhận được chính xác phần tử mà bạn muốn bằng cách kiểm tra [tùy thuộc vào cấu trúc của trang web], vì vậy bạn có thể phải lướt mã HTML một lúc để có được phần tử chính xác mà bạn muốn. Và bây giờ, chỉ cần sao chép đường dẫn đó và dán vào mã của bạn. Sau khi chạy tất cả các dòng mã này, bạn sẽ nhận được tiêu đề của tiêu đề đầu tiên được in trên thiết bị đầu cuối của mình
Python3
time
8
time
9import
3 from
1from
2from
3from
2from
5from
2from
7from
8from
9from
2selenium
1from
2selenium
3selenium
4selenium
5_______3_______2_______4_______3_______1_______4_______4_______2_______1
selenium
1from
2import
4from
2from
7from
8from
9from
2selenium
3webdriver
1selenium
5from
2selenium
3webdriver
5selenium
5from
2selenium
1from
2selenium
1from
2from
2from
2from
4from
2from
6
time
0
from
8
from
9import
3 datetime
1
time
0
datetime
3
datetime
4_______8_______5
đầu ra
‘Tấn công vào lãnh thổ Afghanistan’. Taliban trong cuộc không kích của Hoa Kỳ đã giết chết 2 người đàn ông ISIS-K
Bước 4. Bây giờ, mục tiêu là lấy X_Path của tất cả các tiêu đề hiện có.
Một cách là chúng tôi có thể sao chép tất cả XPath của tất cả các tiêu đề [khoảng 6 tiêu đề sẽ có trong tin tức trên google mỗi lần] và chúng tôi có thể tìm nạp tất cả những tiêu đề đó, nhưng phương pháp đó không phù hợp nếu có nhiều thứ cần . Vì vậy, cách tinh tế là tìm mẫu XPath của các tiêu đề sẽ giúp các tác vụ của chúng ta trở nên dễ dàng và hiệu quả hơn. Dưới đây là XPath của tất cả các tiêu đề trên trang web và hãy tìm ra mẫu
/html/body/c-wiz/div/div[2]/div[2]/div/main/c-wiz/div[1]/div[3]/div/div/article/h3/a
/html/body/c-wiz/div/div[2]/div[2]/div/main/c-wiz/div[1]/div[4]/div/div/article/h3/a
/html/body/c-wiz/div/div[2]/div[2]/div/main/c-wiz/div[1]/div[5]/div/div/article/h3/a
/html/body/c-wiz/div/div[2]/div[2]/div/main/c-wiz/div[1]/div[6]/div/div/article/h3/a
/html/body/c-wiz/div/div[2]/div[2]/div/main/c-wiz/div[1]/div[7]/div/div/article/h3/a
/html/body/c-wiz/div/div[2]/div[2]/div/main/c-wiz/div[1]/div[8]/div/div/article/h3/a
Vì vậy, bằng cách xem các XPath này, chúng ta có thể thấy rằng chỉ có div thứ 5 đang thay đổi [những cái được in đậm]. Vì vậy, dựa trên điều này, chúng tôi có thể tạo XPath của tất cả các tiêu đề. Chúng tôi sẽ nhận được tất cả các tiêu đề từ trang bằng cách truy cập chúng bằng XPath của họ. Vì vậy, để trích xuất tất cả những thứ này, chúng tôi có mã là
Python3
datetime
6
from
7import
3 webdriver
1
import
0 import
1import
2 import
3import
4webdriver
5import
6import
7import
8
import
9datetime
4_______1_______01import
02import
03
import
9from
7import
06import
3 webdriver
1
import
9import
10import
3 import
12from
2from
3from
2from
5from
2from
7from
8from
9from
2selenium
1from
2selenium
3selenium
4selenium
5from
2selenium
3selenium
4selenium
5from
2selenium
1from
2import
34
import
9from
2from
7from
8_______3_______9from
2selenium
3webdriver
1selenium
5from
2import
45from
2selenium
1from
2selenium
1from
2__from
2_______3_______2_______3_______4_______3_______2_______3_______6
import
9import
57import
3 import
59
import
9datetime
4import
62
đầu ra
Bây giờ, mã gần như đã hoàn tất, điều cuối cùng chúng ta phải làm là mã sẽ nhận được tiêu đề sau mỗi 10 phút. Vì vậy, chúng tôi sẽ chạy một vòng lặp và ngủ trong 10 phút sau khi nhận được tất cả các tiêu đề
Dưới đây là thực hiện đầy đủ
Python3
import
time
from
selenium
import
webdriver
from
datetime
import
datetime
time
0
import
2import
3 import
4import
5
time
0
import
6import
3 import
81
time
0
time
2import
3 time
4
time
0
import
87
time
0
import
89import
4import
91import
8
import
9import
94import
3 import
96
import
97
import
9import
99
import
9time
01
import
9time
03import
3 time
05time
06import
03
import
9datetime
4_______1_______01time
11_______1_______03
import
9from
7import
3 webdriver
1
time
0
import
9import
0 import
1import
2 import
3import
4webdriver
5import
6import
7import
8
time
28import
10import
3 time
31
time
32
time
28time
34
time
28time
36
time
28time
38time
39
time
40_______1_______10import
3 import
12from
2from
3from
1from
5from
2from
7from
8from
9from
2_______4_______1from
2selenium
3__selenium
4_______4_______5_______3_______2_______4_______3_______ 4_______1
time
40_______4_______1from
2import
4from
2from
7from
8from
9__from
2selenium
3selenium
1selenium
5from
2_______1_______45from
2selenium
1from
2__selenium
1_______3_______2_______3_______2_______3_______2_______3_______2_______3_______2_______3_______2
time
40_______1_______57import
3 import
59
time
28time
93time
39
time
40_______2_______96
time
28datetime
4import
01import
02import
03
time
28from
7import
06import
3 webdriver
1
time
28datetime
4import
62
time
32
import
9from
12
import
9from
14from
15from
16
đầu ra
https. //phương tiện truyền thông. chuyên viên máy tính. org/wp-content/uploads/20210902223708/new-bot-video. mp4
Phương pháp 2. Sử dụng Yêu cầu và BeautifulSoup
Mô-đun yêu cầu lấy dữ liệu HTML thô từ các trang web và súp đẹp mắt được sử dụng để phân tích thông tin đó một cách rõ ràng để có được dữ liệu chính xác mà chúng tôi yêu cầu. Không giống như Selenium, không cần cài đặt trình duyệt và nó thậm chí còn nhẹ hơn vì nó truy cập trực tiếp vào web mà không cần sự trợ giúp của trình duyệt
Triển khai từng bước
Bước 1. Nhập mô-đun
Python3
import
from
18
from
from
20import
from
22
import
time
Bước 2. Điều tiếp theo cần làm là lấy dữ liệu URL và sau đó phân tích cú pháp mã HTML
Python3
time
2import
3 from
27
from
28import
3 from
30
from
31import
3 from
33
from
34import
3 from
36from
37_______1_______03
Bước 3. Đầu tiên, chúng ta sẽ lấy tất cả các tiêu đề từ bảng
Python3
from
39
from
40_______1_______3 from
42from
43from
44from
45selenium
5
from
47_______1_______3 from
49from
50
time
0
import
0 import
1import
2 from
55
import
9from
57
from
58
from
47_______1_______3 from
61from
62_______4_______5
time
0
datetime
4import
4_______3_______67import
03
import
0 from
70import
2 from
72
import
9datetime
4from
75
đầu ra
Bước 4. Theo cách tương tự, tất cả các giá trị trong mỗi hàng có thể được lấy
Python3
from
76
import
0 import
1import
2 import
3import
4webdriver
1import
6from
84import
8
import
9from
87import
3 from
42from
43from
91
import
9from
7import
3 from
95_______3_______96import
03
import
97
import
9import
0 import
1import
2 selenium
03
time
28datetime
4_______4_______06import
3selenium
08import
03
import
9datetime
4selenium
12
đầu ra
Dưới đây là thực hiện đầy đủ
Python3
import
from
18
from
from
20import
from
22
from
datetime
import
datetime
import
time
time
0
import
89import
4import
91import
8
import
9import
94import
3 import
96
import
97
import
9selenium
36
import
9time
01
import
9time
03import
3 time
05time
06import
03
import
9datetime
4_______1_______01time
11_______1_______03
time
0
import
9from
28import
3 selenium
54_______3_______27import
03
import
9from
31_______1_______3 from
33
import
9selenium
62import
3 from
36from
37import
03
import
9from
40import
3 selenium
70from
43from
44from
45selenium
5
import
9from
47import
3 selenium
78
import
9import
0 import
1import
2 from
55
time
28from
57
import
9from
47import
3 from
61_______3_______62selenium
5
time
0
import
9from
34import
3 selenium
78
time
0
import
9import
0 import
1_______1_______2 import
3import
4webdriver
1import
6from
84import
8
time
28import
09import
3 selenium
70from
43from
91
time
28import
15import
3 import
17from
96import
03
time
28import
21 import
3 import
23
time
32
time
28import
0 import
27_______1_______2 import
3import
4from
62import
8
time
40_______1_______21import
35import
3 import
37
time
28import
39import
21import
03
time
32
import
9import
0 import
45import
2 import
47
time
28datetime
4import
50
time
28datetime
4selenium
12
import
9from
14from
15import
03
đầu ra
Lưu trữ Bot
Đây là một phương thức đặc thù, dùng để chạy bot liên tục trực tuyến mà không cần bất kỳ sự can thiệp nào của con người. thay thế. com là một trình biên dịch trực tuyến, nơi chúng tôi sẽ chạy mã. Chúng tôi sẽ tạo một máy chủ web nhỏ với sự trợ giúp của mô-đun bình trong python giúp chạy mã liên tục. Vui lòng tạo một tài khoản trên trang web đó và tạo một thay thế mới
Sau khi tạo thay thế, Tạo hai tệp, một tệp để chạy mã bot và tệp còn lại để tạo máy chủ web bằng bình
Mã cho cryptotracker. py
Python3
import
from
18
from
from
20import
from
22
from
datetime
import
datetime
import
time
time
0
import
71
import
72
from
import
74import
import
74
import
import
78
time
0
import
80
import
81
import
89import
4import
91import
8
import
9import
87import
3 import
89import
90import
03
import
9import
93import
3 import
95
import
97
import
9import
98
import
9time
03import
3 webdriver
02webdriver
03import
03
import
9datetime
4_______1_______01time
11_______1_______03
time
0
import
9from
28import
3 selenium
54_______3_______27import
03
import
9from
31_______1_______3 from
33
import
9selenium
62import
3 from
36from
37import
03
time
0
import
9from
40import
3 selenium
70from
43from
44from
45selenium
5
import
9from
47import
3 selenium
78
import
9import
0 import
1import
2 from
55
time
28from
57
import
9from
47import
3 from
61_______3_______62selenium
5
time
0
import
9from
34import
3 selenium
78
time
0
import
9import
0 import
1_______1_______2 import
3import
4webdriver
1import
6from
84import
8
time
28import
09import
3 selenium
70from
43from
91
time
28import
15import
3 import
17from
96import
03
time
28import
21 import
3 import
23
time
28import
0 import
27_______1_______2 import
3import
4from
62import
8
time
40_______1_______21import
35import
3 import
37
time
28import
39import
21import
03
time
0
import
9import
0 import
45import
2 import
47
time
28datetime
4import
50
time
0
import
9from
14from
14import
03
Mã cho keep_alive. py [máy chủ web]
Python3
from
from
17import
from
19
from
from
21_______1_______ from
23
time
0
from
25import
3 from
27
time
0
from
29_______3_______30from
31import
03
from
33 from
34
import
9from
36 from
37
time
0
from
33 from
40
from
41from
42import
3from
44from
45import
3from
47import
03
time
0
from
33 from
51
import
9from
53import
3 from
55_______1_______3from
57
import
9from
59
Keep-alive là một phương pháp trong mạng được sử dụng để ngăn chặn một liên kết nào đó bị phá vỡ. Ở đây, mục đích của mã duy trì là tạo một máy chủ web bằng cách sử dụng bình, điều này sẽ giữ cho chuỗi mã [mã theo dõi tiền điện tử] hoạt động để nó có thể cung cấp các bản cập nhật liên tục
Bây giờ, chúng tôi đã tạo một máy chủ web và bây giờ, chúng tôi cần một cái gì đó để ping nó liên tục để máy chủ không bị hỏng và mã tiếp tục chạy liên tục. Có một trang web uptimerobot. com làm công việc này. Tạo một tài khoản trong đó
https. //phương tiện truyền thông. chuyên viên máy tính. org/wp-content/uploads/20210902225131/replit-gfg-crypto-bot. mp4
Chạy mã theo dõi tiền điện tử trong Replit. Do đó, chúng tôi đã tạo thành công một bot quét web sẽ liên tục loại bỏ trang web cụ thể cứ sau 10 phút và in dữ liệu ra thiết bị đầu cuối