Hướng dẫn php crawl html - thu thập dữ liệu php html

Hướng dẫn php crawl html - thu thập dữ liệu php html

Đã đăng vào thg 2 28, 2017 11:49 SA 2 phút đọc 2 phút đọc

Hôm nay, mình sẽ giới thiệu với các bạn về việc lấy dữ liệu từ cách website khác bằng việc sử dụng thư viện trong php. Và thư viện mình giới thiệu hôm nay đó là thư viện PHP Simple HTML DOM ParserPHP Simple HTML DOM Parser

PHP Simple HTML DOM Parser là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Nó hỗi trợ một số tính năng như là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Nó hỗi trợ một số tính năng như

  1. Hôĩ trợ bóc tách dữ liệu theo từng id, class hoặc thể img, a, table, ...
  2. Code ngắn dễ học, dễ viết, dễ nhớ ...
  3. Khá nhẹ nhàng

Cài đặt Để để tải thư viện này bạn có thể lên trang chủ của nó tại địa chỉ http://simplehtmldom.sourceforge.net/ để tải về. Sau khi có thư viện bạn copy file simple_html_dom.php vào dự án của mình và include file đó vào file bạn muốn lấy dữ liệu để sử dụng. Các khác bạn có thể cài đặt nó thông qua composer. Sử dụng Thư viện này rất dễ sử dụng. Mình tìm hiểu qua một số tính năng của thư viện. Đọc nội dùng của một file. Để để tải thư viện này bạn có thể lên trang chủ của nó tại địa chỉ http://simplehtmldom.sourceforge.net/ để tải về. Sau khi có thư viện bạn copy file simple_html_dom.php vào dự án của mình và include file đó vào file bạn muốn lấy dữ liệu để sử dụng. Các khác bạn có thể cài đặt nó thông qua composer. Sử dụng Thư viện này rất dễ sử dụng. Mình tìm hiểu qua một số tính năng của thư viện. Đọc nội dùng của một file.

$html = file_get_html('link của trang web');
echo $html;

Hiển thị tất cả các ảnh

$html = file_get_html('http://www.google.com/');
foreach($html->find('img') as $element) {
       echo '
'; }

Lấy nội dung từ một id cụ thể

$html = file_get_html('http://www.google.com/');
$noidung = $html->find('#ten_id',0);

Truyền số 0 vào đằng sau để lấy ra nội dung đầu tiên trong id của mảng. Các trường hợp lấy theo class, table, p ... cũng lấy tương tự.

Thực hành lấy dữ liệu qua ví dụ cụ thể. Ví dụ 1. Hiển thị toàn bộ nội dung trang web. Ví dụ 1. Hiển thị toàn bộ nội dung trang web.


Ví dụ 2. Lấy ảnh từ trang web trên

find('.block_thumb_slide_show',0)->outertext='';
    $html ->load($html ->save());
    $tieude = $html->find('.title_news',0);
    $noidung = $html->find('#article_content',0);
?>

plaintext?>

innertext?>

Kết luận Vừa rồi mình mới giới thiệu qua cho các bạn về thư viện PHP Simple HTML DOM Parser để lấy dự liệu từ các trang web khác về web của mình. Tham khảo https://code.tutsplus.com/tutorials/html-parsing-and-screen-scraping-with-the-simple-html-dom-library--net-11856 http://simplehtmldom.sourceforge.net/manual.htm Vừa rồi mình mới giới thiệu qua cho các bạn về thư viện PHP Simple HTML DOM Parser để lấy dự liệu từ các trang web khác về web của mình. Tham khảo https://code.tutsplus.com/tutorials/html-parsing-and-screen-scraping-with-the-simple-html-dom-library--net-11856 http://simplehtmldom.sourceforge.net/manual.htm

All rights reserved

Bạn muốn get dữ liệu từ một trang web khác, copy nội dung, hình ảnh, thậm chí là cấu trúc của một trang web khác và đưa vào cơ sở dữ liệu trang web mình, hoặc đơn giản là show dữ liệu của ra trang web ra với một cấu trúc mới, thiết kế mới của trang web của chính các bạn! Hôm nay, Trung Trịnh .Com sẽ giới thiệu đến với các bạn một thư viện PHP hỗ trợ việc đó. Và thư viện mình giới thiệu hôm nay đó là thư viện PHP Simple HTML DOM Parserget dữ liệu từ một trang web khác, copy nội dung, hình ảnh, thậm chí là cấu trúc của một trang web khác và đưa vào cơ sở dữ liệu trang web mình, hoặc đơn giản là show dữ liệu của ra trang web ra với một cấu trúc mới, thiết kế mới của trang web của chính các bạn! Hôm nay, Trung Trịnh .Com sẽ giới thiệu đến với các bạn một thư viện PHP hỗ trợ việc đó. Và thư viện mình giới thiệu hôm nay đó là thư viện PHP Simple HTML DOM Parser

PHP Simple HTML DOM Parser là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Thư viện này có những ưu điểm vượt trội như sau: là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Thư viện này có những ưu điểm vượt trội như sau:

- Hỗ trợ bóc tách dữ liệu theo từng id, class hoặc thẻ img, a, table, ... - Code ngắn dễ học, dễ viết, dễ nhớ ... - Khá nhẹ nhàng
- Code ngắn dễ học, dễ viết, dễ nhớ ...
- Khá nhẹ nhàng

Để sử dụng thư viện này, các bạn có thể tải về phiên bản mới nhất tại địa chỉ http://simplehtmldom.sourceforge.net/  hoặc link dự phòng do trungtrinh.com lưu trữ: tải php simple html dom parser

Sau khi có thư viện các bạn copy file simple_html_dom.php vào dự án của mình và include file đó vào file bạn muốn lấy dữ liệu để sử dụng. Các khác bạn có thể cài đặt nó thông qua composer. Sử dụng Thư viện này rất dễ sử dụng. Mình tìm hiểu qua một số tính năng của thư viện.

Đọc nội dung của một file:

$html = file_get_html('link trang gốc');
echo $html;

Hiển thị tất cả các ảnh của trang gốc:

$html = file_get_html('link trang gốc');
foreach($html->find('img') as $element) {
       echo '
'; }

Lấy nội dung từ một id cụ thể

$html = file_get_html('link trang gốc');
$noidung = $html->find('#ten_id',0);

Số 0 vào đằng sau là để lấy ra nội dung đầu tiên trong id của mảng. Các trường hợp lấy theo class, table, p ... cũng lấy tương tự.

Trên đây là ví dụ cơ bản. Thư viện có thể dùng để áp dụng cho một website get dữ liệu và phát triển nghiệm túc, các bạn cần phải tìm hiểu thêm, ở đây là hướng dẫn cụ thể: http://simplehtmldom.sourceforge.net/manual.htm 

Bạn đang xem bài viết tại chuyên mục PHP / MYSQL / MYSQLi của Website Trung Trịnh. Nếu thấy bổ ích, hãy bấm like và share để chia sẻ cho mọi người cùng xem nhé!