Quét web là một kỹ thuật để lấy dữ liệu từ các trang web. Khi lướt web, nhiều trang web không cho phép người dùng lưu dữ liệu cho mục đích cá nhân. Một cách là sao chép-dán dữ liệu theo cách thủ công, vừa tẻ nhạt vừa tốn thời gian. Web Scraping là quá trình tự động hóa quá trình trích xuất dữ liệu từ các trang web. Trong bài viết này, chúng tôi sẽ thảo luận về cách chúng tôi có thể tải xuống tất cả hình ảnh từ một trang web bằng python
Mô-đun cần thiết
- bs4. Beautiful Soup[bs4] là một thư viện Python để lấy dữ liệu ra khỏi các tệp HTML và XML. Mô-đun này không được tích hợp sẵn với Python
- yêu cầu. Yêu cầu cho phép bạn gửi HTTP/1. 1 yêu cầu cực kỳ dễ dàng. Mô-đun này cũng không tích hợp sẵn với Python
- hệ điều hành. Mô-đun hệ điều hành trong python cung cấp các chức năng để tương tác với hệ điều hành. Hệ điều hành, đi kèm với các mô-đun tiện ích tiêu chuẩn của Python. Mô-đun này cung cấp một cách di động để sử dụng chức năng phụ thuộc vào hệ điều hành
Cách tiếp cận
- Nhập mô-đun
- Nhận mã HTML
- Nhận danh sách các thẻ img từ Mã HTML bằng phương thức findAll trong Beautiful Soup
images = soup.findAll['img']
Tạo thư mục riêng để tải xuống hình ảnh bằng phương pháp mkdir trong os
os.mkdir[folder_name]
- Lặp lại tất cả các hình ảnh và lấy URL nguồn của hình ảnh đó
- Sau khi nhận được URL nguồn, bước cuối cùng là tải xuống hình ảnh
- Tìm nạp nội dung của hình ảnh
r = requests.get[Source URL].content
- Tải xuống hình ảnh bằng Xử lý tệp
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]
Chương trình
Python3
os.mkdir[folder_name]88
os.mkdir[folder_name]89
os.mkdir[folder_name]90
os.mkdir[folder_name]91
os.mkdir[folder_name]90
os.mkdir[folder_name]93
os.mkdir[folder_name]90
os.mkdir[folder_name]1
os.mkdir[folder_name]2
os.mkdir[folder_name]3
os.mkdir[folder_name]4
os.mkdir[folder_name]5
os.mkdir[folder_name]6
os.mkdir[folder_name]7
os.mkdir[folder_name]8
os.mkdir[folder_name]9
r = requests.get[Source URL].content0
r = requests.get[Source URL].content1
r = requests.get[Source URL].content2
r = requests.get[Source URL].content3
r = requests.get[Source URL].content4
os.mkdir[folder_name]8
r = requests.get[Source URL].content6
os.mkdir[folder_name]8
r = requests.get[Source URL].content8
os.mkdir[folder_name]5
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]0
os.mkdir[folder_name]5____32____17
os.mkdir[folder_name]8
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]5
r = requests.get[Source URL].content2
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]7
r = requests.get[Source URL].content4
os.mkdir[folder_name]8
os.mkdir[folder_name]880
os.mkdir[folder_name]5
os.mkdir[folder_name]882
os.mkdir[folder_name]5
os.mkdir[folder_name]884
os.mkdir[folder_name]885
os.mkdir[folder_name]3
os.mkdir[folder_name]887
os.mkdir[folder_name]888
os.mkdir[folder_name]5
os.mkdir[folder_name]890
os.mkdir[folder_name]5
os.mkdir[folder_name]892
r = requests.get[Source URL].content0
os.mkdir[folder_name]894
os.mkdir[folder_name]5
os.mkdir[folder_name]896
os.mkdir[folder_name]5
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]5
os.mkdir[folder_name]899
os.mkdir[folder_name]900
r = requests.get[Source URL].content4
os.mkdir[folder_name]5____1903
os.mkdir[folder_name]5
os.mkdir[folder_name]905
os.mkdir[folder_name]906______1907
r = requests.get[Source URL].content0
os.mkdir[folder_name]894
os.mkdir[folder_name]7
os.mkdir[folder_name]8
os.mkdir[folder_name]912
os.mkdir[folder_name]913
os.mkdir[folder_name]914
os.mkdir[folder_name]915
os.mkdir[folder_name]916
os.mkdir[folder_name]917
os.mkdir[folder_name]918
os.mkdir[folder_name]919
os.mkdir[folder_name]900
os.mkdir[folder_name]919
os.mkdir[folder_name]902
os.mkdir[folder_name]919
os.mkdir[folder_name]904
os.mkdir[folder_name]919
os.mkdir[folder_name]906
os.mkdir[folder_name]917
os.mkdir[folder_name]908
os.mkdir[folder_name]917
os.mkdir[folder_name]930
os.mkdir[folder_name]917
os.mkdir[folder_name]6
os.mkdir[folder_name]7
________ 1934 ________ 1935
os.mkdir[folder_name]934
os.mkdir[folder_name]937
r = requests.get[Source URL].content0
os.mkdir[folder_name]939
os.mkdir[folder_name]00
os.mkdir[folder_name]01
os.mkdir[folder_name]934
os.mkdir[folder_name]917
os.mkdir[folder_name]04
os.mkdir[folder_name]917
os.mkdir[folder_name]06
os.mkdir[folder_name]917
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]2____17
os.mkdir[folder_name]934
os.mkdir[folder_name]6____17
os.mkdir[folder_name]13
os.mkdir[folder_name]14
os.mkdir[folder_name]13
os.mkdir[folder_name]937
r = requests.get[Source URL].content0
os.mkdir[folder_name]939
os.mkdir[folder_name]19
os.mkdir[folder_name]01
os.mkdir[folder_name]934
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]2____17
os.mkdir[folder_name]13
os.mkdir[folder_name]6
os.mkdir[folder_name]7
os.mkdir[folder_name]919
os.mkdir[folder_name]28
os.mkdir[folder_name]919
os.mkdir[folder_name]937
r = requests.get[Source URL].content0
os.mkdir[folder_name]939
os.mkdir[folder_name]33
os.mkdir[folder_name]01
os.mkdir[folder_name]13
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]2
os.mkdir[folder_name]7
os.mkdir[folder_name]919
os.mkdir[folder_name]6
os.mkdir[folder_name]7
os.mkdir[folder_name]41
os.mkdir[folder_name]42
os.mkdir[folder_name]41
os.mkdir[folder_name]937
r = requests.get[Source URL].content0
os.mkdir[folder_name]939
os.mkdir[folder_name]47
os.mkdir[folder_name]01
os.mkdir[folder_name]919
os.mkdir[folder_name]50
os.mkdir[folder_name]919
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]2____17
os.mkdir[folder_name]41
os.mkdir[folder_name]55
os.mkdir[folder_name]917
os.mkdir[folder_name]57
os.mkdir[folder_name]917
os.mkdir[folder_name]59
os.mkdir[folder_name]917
os.mkdir[folder_name]6
os.mkdir[folder_name]7
os.mkdir[folder_name]934
os.mkdir[folder_name]64
r = requests.get[Source URL].content0
os.mkdir[folder_name]66
os.mkdir[folder_name]934
os.mkdir[folder_name]6____17
os.mkdir[folder_name]13
os.mkdir[folder_name]71
os.mkdir[folder_name]13
os.mkdir[folder_name]64
r = requests.get[Source URL].content0
os.mkdir[folder_name]75
os.mkdir[folder_name]76
os.mkdir[folder_name]77
r = requests.get[Source URL].content4
os.mkdir[folder_name]934
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]2
os.mkdir[folder_name]81
os.mkdir[folder_name]13
os.mkdir[folder_name]83
os.mkdir[folder_name]13
os.mkdir[folder_name]85_______186
os.mkdir[folder_name]899
os.mkdir[folder_name]88
os.mkdir[folder_name]89
os.mkdir[folder_name]90
os.mkdir[folder_name]91
os.mkdir[folder_name]919
os.mkdir[folder_name]93
os.mkdir[folder_name]13
os.mkdir[folder_name]95
os.mkdir[folder_name]13
os.mkdir[folder_name]892
os.mkdir[folder_name]98
r = requests.get[Source URL].content0
r = requests.get[Source URL].content00
os.mkdir[folder_name]917
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]2____17
os.mkdir[folder_name]934
os.mkdir[folder_name]55
os.mkdir[folder_name]8
r = requests.get[Source URL].content07
os.mkdir[folder_name]8
r = requests.get[Source URL].content09
os.mkdir[folder_name]8
r = requests.get[Source URL].content11
os.mkdir[folder_name]8
os.mkdir[folder_name]905
os.mkdir[folder_name]892
r = requests.get[Source URL].content0
r = requests.get[Source URL].content0
os.mkdir[folder_name]906
os.mkdir[folder_name]916
os.mkdir[folder_name]917
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]5
r = requests.get[Source URL].content2
r = requests.get[Source URL].content22
r = requests.get[Source URL].content4
os.mkdir[folder_name]917
os.mkdir[folder_name]8
r = requests.get[Source URL].content26
os.mkdir[folder_name]8
r = requests.get[Source URL].content28
os.mkdir[folder_name]7
os.mkdir[folder_name]917
# Enter File Name with Extension like jpg, png etc.. with open["File Name","wb+"] as f: f.write[r]5
os.mkdir[folder_name]899
r = requests.get[Source URL].content33
r = requests.get[Source URL].content4
r = requests.get[Source URL].content35
os.mkdir[folder_name]3
r = requests.get[Source URL].content37
os.mkdir[folder_name]888
os.mkdir[folder_name]5
r = requests.get[Source URL].content40
os.mkdir[folder_name]5
os.mkdir[folder_name]64
r = requests.get[Source URL].content0
r = requests.get[Source URL].content44
os.mkdir[folder_name]5
r = requests.get[Source URL].content46
os.mkdir[folder_name]5
r = requests.get[Source URL].content48
r = requests.get[Source URL].content0
r = requests.get[Source URL].content50
r = requests.get[Source URL].content51
r = requests.get[Source URL].content4
os.mkdir[folder_name]5
r = requests.get[Source URL].content54
os.mkdir[folder_name]5
r = requests.get[Source URL].content56
r = requests.get[Source URL].content0
r = requests.get[Source URL].content58
r = requests.get[Source URL].content59
r = requests.get[Source URL].content4
os.mkdir[folder_name]5
r = requests.get[Source URL].content62
os.mkdir[folder_name]5____264
r = requests.get[Source URL].content65
r = requests.get[Source URL].content66
r = requests.get[Source URL].content0
r = requests.get[Source URL].content1____22
r = requests.get[Source URL].content70
r = requests.get[Source URL].content4
r = requests.get[Source URL].content72
r = requests.get[Source URL].content73
đầu ra
https. //phương tiện truyền thông. chuyên viên máy tính. org/wp-content/uploads/20201211190257/FreeOnlineScreenRecorderProject1. mp4