Hướng dẫn php parse html from url - php phân tích cú pháp html từ url

Chỉ tự hỏi nếu ai đó có thể giúp tôi hơn nữa với những điều sau đây. Tôi muốn phân tích URL trên trang web này: //www.directorycritic.com/free-directory-list.html? PG = 1 & sort = PR

Tôi có mã sau:


Không có gì hiện tại và những gì tôi cần điều này để làm là loại bỏ tất cả các URL trong bảng cho tất cả 16 trang và thực sự sẽ đánh giá cao một số trợ giúp về cách sửa đổi các điều trên để thực hiện điều đó và xuất URL vào tệp văn bản.

//localhost]']; $url = $domain_name; $url_without_www=str_replace['//','',$url]; $url_without_www=str_replace['www.','',$url_without_www]; $url_without_www= str_replace[strstr[$url_without_www,'/'],'',$url_without_www]; $url_without_www=trim[$url_without_www]; $input = @file_get_contents[$url] or die['Could not access file: $url']; $regexp = "]*href=[\"??][[^\" >]*?]\\1[^>]*>[.*]"; //$inbound=0; $outbound=0; $nonfollow=0; if[preg_match_all["/$regexp/siU", $input, $matches, PREG_SET_ORDER]] { foreach[$matches as $match] { # $match[2] = link address # $match[3] = link text //echo $match[3].'
'; if[!empty[$match[2]] && !empty[$match[3]]] { if[strstr[strtolower[$match[2]],'URL:'] || strstr[strtolower[$match[2]],'url:'] ] { $nonfollow +=1; } else if [strstr[strtolower[$match[2]],$url_without_www] || !strstr[strtolower[$match[2]],'//']] { $inbound += 1; echo '
inbound '. $match[2]; } else if [!strstr[strtolower[$match[2]],$url_without_www] && strstr[strtolower[$match[2]],'//']] { echo '
outbound '. $match[2]; $outbound += 1; } } } } $links['inbound']=$inbound; $links['outbound']=$outbound; $links['nonfollow']=$nonfollow; return $links; } // ************************Usage******************************** $Domain='//zachbrowne.com'; $links=getinboundLinks[$Domain]; echo '
Number of inbound Links '.$links['inbound']; echo '
Number of outbound Links '.$links['outbound']; echo '
Number of Nonfollow Links '.$links['nonfollow'];

Đã trả lời ngày 14 tháng 1 năm 2020 lúc 12:51Jan 14, 2020 at 12:51

Xem thảo luận

Cải thiện bài viết

Lưu bài viết

  • Đọc
  • Bàn luận
  • Xem thảo luận

    Cải thiện bài viết

    Lưu bài viết

    Đọc

    Bàn luận

    Trong bài viết này, chúng tôi sẽ học cách phân tích HTML trong PHP.

    Phân tích cú pháp là gì?

    Nói chung phân tích cú pháp là chuyển đổi một loại dữ liệu sang loại dữ liệu khác. Điều đó có nghĩa là cách chúng ta có thể chuyển đổi các loại dữ liệu khác nhau thành HTML. Ví dụ: Chuyển đổi chuỗi thành HTML.

    Tại sao chúng ta cần phân tích cú pháp?

    Để thêm dữ liệu động [nội dung HTML] tại một điểm nhất định trong mã PHP, chúng tôi cần phân tích cú pháp. Ví dụ: để thêm dữ liệu [thông tin] dưới dạng HTML, chúng ta cần tạo mẫu động đó trong chuỗi và sau đó chuyển đổi nó thành HTML.

    Làm thế nào chúng ta nên làm phân tích cú pháp?           

    loadHTML[string $source,int $options=0]

    Parameters:

    • Chúng ta nên sử dụng hàm LoadHtml [] để phân tích cú pháp.This variable is the container of the HTML code which you want to parse,
    • Cú pháp: & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; You may use the options parameter to specify additional Libxml parameters.

    $ Nguồn: Biến này là thùng chứa của mã HTML mà bạn muốn phân tích cú pháp,It returns true on success or false on failure. 

    Tùy chọn $: Bạn có thể sử dụng tham số Tùy chọn để chỉ định các tham số LibXML bổ sung.

    PHP

    Chủ Đề