Hướng dẫn dùng canonicalized trong PHP

Canonical Tags là gì? Bạn đang muốn tìm hiểu về Canonical Tags và cách sử dụng chúng nhằm tránh khỏi các vấn đề về nội dung trùng lặp?

Nội dung chính

  • Nhưng tôi không hề có nội dung trùng lặp, đúng không?
  • Quy tắc số 1: Sử dụng URL tuyệt đối
  • Quy tắc số 2: Sử dụng URL viết thường
  • Quy tắc số 3: Sử dụng đúng phiên bản tên miền [HTTPS so với HTTP]
  • Quy tắc số 4: Sử dụng Canonical Tags tự tham chiếu
  • Quy tắc số 5: Sử dụng một thẻ Canonical trên mỗi trang
  • 1. Đặt thẻ HTML rel = “canonical”
  • 2. Đặt Canonical trong tiêu đề HTTP
  • 3. Đặt tiêu chuẩn trong sơ đồ website
  • 4. Đặt tiêu chuẩn với chuyển hướng 301
  • 5. Liên kết nội bộ [Internal Link]
  • Sai lầm #1: Chặn URL được chuẩn hóa qua robots.txt
  • Sai lầm #2: Đặt mã trạng thái HTTP 4XX cho URL chuẩn hóa
  • Sai lầm #3: Đặt URL Canonical thành ‘noindex’
  • Sai lầm #4: Canonicalizing tất cả các trang được phân thành trang gốc
  • Sai lầm #5: Rel = canonical trong
  • Sai lầm #6: Có nhiều thẻ rel = canonical
  • Sai lầm #7: Không sử dụng thẻ Canonical với hreflang
  • Cách tìm và khắc phục sự cố Canonicalization trên trang web của bạn
  • 1. Canonical trỏ tới 4XX
  • 2. Canonical trỏ tới 5XX
  • 3. Các điểm chuẩn để chuyển hướng
  • 4. Các trang trùng lặp không có trang chuẩn Canonical
  • 5. Hreflang sang không chuẩn
  • 6. URL ‘chuẩn’ không có liên kết nội bộ
  • 7. Trang ‘không chuẩn’ trong sơ đồ của trang web
  • 8. Trang ‘không chuẩn’ lại được chỉ định là trang ‘chuẩn’
  • 9. URL biểu đồ mở không khớp với trang ‘chuẩn’
  • 10. Chuẩn từ HTTPS sang HTTP
  • 11. Chuẩn từ HTTP sang HTTPS
  • 12. Trang không ‘chuẩn’ nhận được lưu lượng truy cập không phải trả tiền
  • Kết luận

Nội dung chính

  • Canonical Tags là gì?
  • Canonical Tags trông như thế nào?
  • Tại sao Canonical Tags lại quan trọng đối với SEO?
  • Nhưng tôi không hề có nội dung trùng lặp, đúng không?
  • Các phương pháp hay nhất về việc triển khai Canonical Tags
  • Quy tắc số 1: Sử dụng URL tuyệt đối
  • Quy tắc số 2: Sử dụng URL viết thường
  • Quy tắc số 3: Sử dụng đúng phiên bản tên miền [HTTPS so với HTTP]
  • Quy tắc số 4: Sử dụng Canonical Tags tự tham chiếu
  • Quy tắc số 5: Sử dụng một thẻ Canonical trên mỗi trang
  • Cách triển khai Canonical Tags
  • 1. Đặt thẻ HTML rel = “canonical”
  • 2. Đặt Canonical trong tiêu đề HTTP
  • 3. Đặt tiêu chuẩn trong sơ đồ website
  • 4. Đặt tiêu chuẩn với chuyển hướng 301
  • 5. Liên kết nội bộ [Internal Link]
  • Những sai lầm thường gặp trong quá trình triển khai Canonical Tags cần tránh
  • Sai lầm #1: Chặn URL được chuẩn hóa qua robots.txt
  • Sai lầm #2: Đặt mã trạng thái HTTP 4XX cho URL chuẩn hóa
  • Sai lầm #3: Đặt URL Canonical thành ‘noindex’
  • Sai lầm #4: Canonicalizing tất cả các trang được phân thành trang gốc
  • Sai lầm #5: Rel = canonical trong
  • Sai lầm #6: Có nhiều thẻ rel = canonical
  • Sai lầm #7: Không sử dụng thẻ Canonical với hreflang
  • Canonical Tags và mạng xã hội
  • Cách tìm và khắc phục sự cố Canonicalization trên trang web của bạn
  • 1. Canonical trỏ tới 4XX
  • 2. Canonical trỏ tới 5XX
  • 3. Các điểm chuẩn để chuyển hướng
  • 4. Các trang trùng lặp không có trang chuẩn Canonical
  • 5. Hreflang sang không chuẩn
  • 6. URL ‘chuẩn’ không có liên kết nội bộ
  • 7. Trang ‘không chuẩn’ trong sơ đồ của trang web
  • 8. Trang ‘không chuẩn’ lại được chỉ định là trang ‘chuẩn’
  • 9. URL biểu đồ mở không khớp với trang ‘chuẩn’
  • 10. Chuẩn từ HTTPS sang HTTP
  • 11. Chuẩn từ HTTP sang HTTPS
  • 12. Trang không ‘chuẩn’ nhận được lưu lượng truy cập không phải trả tiền
  • Kết luận

Trên thực tế, Canonical Tags không còn là điều gì quá mới mẻ nữa. Nó đã xuất hiện từ năm 2009, do Google, Microsoft và Yahoo ‘chung tay’ tạo ra với mục đích cung cấp cho chủ sở hữu website cách để giải quyết các vấn đề về nội dung trùng lặp một cách nhanh chóng và dễ dàng.

Canonical Tags [rel=”canonical”] là một đoạn mã HTML sẽ xác định phiên bản chính giữa các trang trùng lặp, gần trùng lặp và nội dung tương tự như vậy. Nói theo cách khác, nếu bạn có các nội dung giống nhau hay tương tự trong các URL khác nhau, bạn có thể sử dụng thẻ Canonical để chỉ định phiên bản nào là phiên bản chính và chúng nên được lập chỉ mục trên kết quả tìm kiếm.

Các thẻ được đặt theo quy chuẩn và nhất quán trong phần của trang web:

Đây là ý nghĩa của từng phần mã đó trong tiếng Anh, được hiểu rất đơn giản:

  • link rel= “canonical”: Liên kết trong thẻ này là phiên bản chính [chuẩn] trên trang này.
  • href = “//example.com/sample-page/” : Bạn có thể tìm thấy phiên bản chuẩn ở trong URL này.

Có thể hiểu đơn giản, do Google không thích các nội dung bị trùng lặp. Điều đó sẽ khiến Google khó đưa ra lựa chọn hơn:

  • Phiên bản nào của trang cần được lập chỉ mục [họ sẽ chỉ lập chỉ mục một trang vì ngân sách thu thập thông tin của Google trên mỗi trang web chỉ có giới hạn].
  • Phiên bản nào của trang sẽ xếp hạng cho các truy vấn có liên quan.
  • Liệu họ có nên hợp nhất ‘liên kết’ trên một trang hay chia nó ra thành nhiều phần.

Quá nhiều nội dung trùng lặp cũng có thể ảnh hưởng tới ‘Ngân sách thu thập thông tin’ của bạn. Điều đó có nghĩa là Google có thể sẽ mất thời gian thu thập thông tin trên nhiều phiên bản trong cùng một trang thay vì khám phá những nội dung quan trọng khác trên trang web của bạn.

SỰ THẬT VỀ NGÂN SÁCH THU THẬP THÔNG TIN

Tất nhiên, việc buộc Google tốn thời gian thu thập thông tin trên ‘mớ’ nội dung trùng lặp là điều nên tránh khỏi [nếu có thể]. Tuy nhiên, Google tuyên bố rằng, đó không phải là vấn đề đối với hầu hết các trang web.

“Nếu các trang mới có xu hướng được thu thập thông tin vào trong cùng ngày chúng được xuất bản, thì ngân sách thu thập thông tin không phải là điều mà những nhà quản trị web cần tập trung vào.”

“Tương tự như vậy với một trang web có ít hơn vài nghìn URL thì trong phần lớn thời gian, chúng sẽ được thu thập thông tin một cách hiệu quả”.

Canonical Tags sẽ giải quyết tất cả những vấn đề này. Chúng cho phép bạn gửi cho Google biết họ nên lập chỉ mục và xếp hạng phiên bản nào của trang, cũng như nơi hợp nhất của bất kỳ “giá trị liên kết” nào.

Thất bại trong việc xác định một URL chuẩn, Google sẽ đưa quyết định chọn URL vào tay họ.

“Nếu bạn không chỉ ra được một URL chuẩn, chúng tôi sẽ xác định những gì mà chúng tôi nghĩ rằng đây là phiên bản hoặc URL tốt nhất.”

Việc dựa vào Google như thế này không phải là một ý tưởng tuyệt vời. Họ có thể sẽ chọn một phiên bản mà bạn không thực sự muốn nó trở thành trang chuẩn trên trang web của bạn.

Lưu ý:

Google tuyên bố rằng, họ thường tôn trọng URL chuẩn mà bạn đặt, nhưng không phải lúc nào cũng được theo ý của bạn. Bởi vì, các thẻ Canonical chỉ là gợi ý chứ không phải là một chỉ thị đối với họ. Miễn là chúng được ‘tôn trọng’ thì nghiễm nhiên mọi tín hiệu cũng như các liên kết sẽ được hợp nhất trở thành URL chuẩn.

Sử dụng các phương pháp hay nhất về Canonical Tags cũng sẽ giúp giảm thiểu nguy cơ Google xem xét một phiên bản không mong muốn của trang trở thành trang chuẩn.

Nhưng tôi không hề có nội dung trùng lặp, đúng không?

Bạn cho rằng bạn đã không xuất bản các bài đăng và trang giống nhau nhiều lần? Thật dễ dàng để cho rằng trang web của bạn không có nội dung trùng lặp.

Tuy nhiên, công cụ tìm kiếm thu thập dữ liệu trên URL, chứ không phải là trang web.

Điều đó có nghĩa là họ xem example.com/productexample.com/product?color=red là các trang duy nhất, mặc dù chúng là cùng trên một trang web và có nội dung giống hệt hoặc tương tự như như vậy.

Chúng được gọi là URL được tham số hóa và chúng là nguyên nhân phổ biến của nội dung trùng lặp, đặc biệt là ở trên các trang web Thương mại điện tử có điều hướng và bộ lọc.

Ví dụ, Brown Bag Clothing chuyên bán áo sơ mi. Đây là URL cho trang danh mục chính của họ:

//www.bbclothing.co.uk/en-gb/clothing/shirts.html

Nếu bạn chỉ lọc áo sơ mi XL, một thông số sẽ được thêm vào URL:

//www.bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL

Nếu sau đó, bạn cũng chỉ lọc những chiếc áo sơ mi màu xanh lam, thì lại có thêm một thông số khác vào đó:

//www.bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&color=Blue

Đây đều là các trang riêng biệt trong ‘con mắt’ của Google, mặc dù nội dung chỉ khác nhau một đôi chút.

Nhưng không chỉ có các trang web thương mại điện tử trở thành nạn nhân của nội dung trùng lặp.

Dưới đây là một số nguyên nhân phổ biến khác của nội dung trùng lặp trên tất cả các loại trang web:

  • Có URL được tham số hóa cho các tham số tìm kiếm [ví dụ: example.com?q=search-term ].
  • Có URL được tham số hóa cho ID phiên [ví dụ: //example.com?sessionid=3]
  • Có các phiên bản trang có thể in riêng biệt [ví dụ: example.com/page và example.com/print/page ]
  • Có các URL duy nhất cho các bài đăng thuộc các danh mục khác nhau [ví dụ: example.com/ services / SEO / và example.com/ specials / SEO / ]
  • Có các trang cho các loại thiết bị khác nhau [ví dụ: example.com và m.example.com ]
  • Có các phiên bản AMP và không phải AMP của một trang [ví dụ: example.com/page và amp.example / page ]
  • Cung cấp cùng một nội dung tại các biến thể không phải www và www [ví dụ: //example.com và //www.example.com ]
  • Cung cấp cùng một nội dung ở các biến thể không phải https và https [ví dụ: //www.example.com và //www.example.com ]
  • Cung cấp cùng một nội dung có và không có dấu gạch chéo ở cuối [ví dụ: //example.com/page/ và //www.example.com/page ]
  • Cung cấp cùng một nội dung ở các phiên bản mặc định của trang, chẳng hạn như trang chỉ mục [ví dụ: //www.example.com/ , //www.example.com/index.htm , //www.example. com / index.html , //www.example.com/index.php , //www.example.com/default.htm , v.v.]
  • Cung cấp cùng một nội dung có và không có chữ viết hoa [ví dụ: //example.com/page/ và //www.example.com/Page/ ]

Trong những tình huống như thế này, việc sử dụng đúng Canonical Tags là rất quan trọng.

Hơn nữa, các vấn đề về nội dung trùng lặp giữa nhiều ‘miền’ [domain] cũng là một vấn đề. Nếu bạn đang cung cấp nội dung, cách tốt nhất là sử dụng Canonical Tags tự tham chiếu trên bài viết của mình và để nội dung được cung cấp sẽ chỉ định đây là phiên bản chuẩn nhất, sẽ có Canonical Tags trên nhiều ‘miền’.

Điều này không phải lúc nào cũng ngăn nội dung được cung cấp hiển thị trong kết quả tìm kiếm, nhưng nó sẽ giúp giảm nguy cơ nội dung đó có thứ hạng cao hơn nội dung gốc.

If people deliberately chose to syndicate their content, it makes it difficult to identify the originating source. That’s why we recommend the use of canonical or blocking. The publishers syndicating can require this. //t.co/hblGLsD0ir pic.twitter.com/yjtx43II8j

— Danny Sullivan [@dannysullivan] September 18, 2019

Chú thích: Một số trang web sẽ từ chối có thêm một canonical link. Trong những trường hợp như thế này, liệu bạn có muốn chấp nhận rủi ro hay không?

Việc triển khai Canonical Tags rất dễ, chúng ta sẽ cùng thảo luận về bốn cách khác nhau nhằm có thể thực hiện điều đó trong giây lát. Nhưng bất kể là bạn chọn phương pháp nào, có năm quy tắc vàng mà bạn nên ghi nhớ chúng.

Quy tắc số 1: Sử dụng URL tuyệt đối

John Mueller của Google đã nói rằng cách tốt nhất là không sử dụng các đường dẫn một cách tương đối với phần tử liên kết rel = “canonical”.

Hi @JohnMu Should we identify canonicals as absolute or relative?

— Vlad Rappoport [@vladrpt] October 24, 2018

Vì vậy, bạn nên sử dụng cấu trúc sau:

Trái ngược với điều này:

Quy tắc số 2: Sử dụng URL viết thường

Vì Google có thể coi URL được viết hoa và viết thường là hai URL khác nhau, trước tiên bạn cần đảm bảo buộc URL viết thường trên máy chủ của mình, sau đó sử dụng URL viết thường đó cho các Canonical Tags của bạn.

Quy tắc số 3: Sử dụng đúng phiên bản tên miền [HTTPS so với HTTP]

Nếu bạn đã chuyển sang SSL, hãy đảm bảo rằng bạn không khai báo bất kỳ URL không phải SSL [tức là HTTP] nào trong các thẻ Canonical của mình. Làm như vậy về mặt lý thuyết có thể dẫn tới nhầm lẫn và kết quả thu về không được như mong muốn.

Nếu bạn đang ở trên một tên miền an toàn, hãy đảm bảo rằng bạn sử dụng phiên bản URL sau:

Trái ngược với:

Chú thích: Nếu bạn không sử dụng HTTPS thì làm ngược lại.

Quy tắc số 4: Sử dụng Canonical Tags tự tham chiếu

John Mueller của Google nói rằng, mặc dù không bắt buộc nhưng các thẻ Canonical tự tham chiếu rất được khuyến khích.

“Tôi khuyên bạn nên sử dụng trang Canonical tự tham chiếu vì nó thực sự giúp chúng tôi hiểu rõ bạn muốn lập chỉ mục trang nào hoặc URL sẽ là gì khi được lập chỉ mục.

Ngay cả khi bạn có một trang, đôi khi có các biến thể khác nhau của URL có thể kéo trang đó lên. Ví dụ, với các tham số ở cuối cùng, có thể là chữ hoa, chữ thường hoặc có www hay không có www. Tất cả những thứ này đều có thể được làm sạch bằng một Canonical Tags tương đối.”

_John Mueller, Nhà phân tích xu hướng và quản trị trang web của Google.

Trong trường hợp, bạn không chắc chắn về cách thức hoạt động của một thẻ Canonical tự tham chiếu. Về cơ bản, đó là một thẻ canonical trên một trang tự trỏ tới chính nó.
Ví dụ: Nếu URL là //example.com/sample-page, thì một trang chuẩn tự tham chiếu trên trang đó sẽ là:

Hầu hết, các CMS phổ biến hiện đại đều tự động thêm các URL tự tham chiếu, nhưng bạn sẽ cần phải có mã cứng dành cho nhà phát triển của mình nếu sử dụng CMS tự tùy chỉnh.

Quy tắc số 5: Sử dụng một thẻ Canonical trên mỗi trang

Nếu trang đó có nhiều Canonical Tags quá thì Google có thể sẽ bỏ qua cả hai.

Trong trường hợp có nhiều khai báo về rel = canonical, Google có thể sẽ bỏ qua tất cả các gợi ý rel = canonical.

Có năm cách nhận biết để chỉ định URL chuẩn. Còn đây là những gì được gọi là tín hiệu chuẩn hóa:

1. Thẻ HTML [rel = canonical]
2. Tiêu đề HTTP
3. Sơ đồ trang web
4. Chuyển hướng 301 *
5. Liên kết nội bộ

Để biết được ưu và nhược điểm của từng phương pháp này, hãy xem tài liệu chính thức của Google.

1. Đặt thẻ HTML rel = “canonical”

Sử dụng thẻ rel = canonical là cách đơn giản và rõ ràng nhất để chỉ định một URL chuẩn.

Bạn chỉ cần thêm mã sau vào phần của bất kỳ trang trùng lặp nào:

Ví dụ

Giả sử, bạn có một trang web thương mại điện tử bán áo thun. Bạn muốn //yourstore.com/tshirts/black-tshirts/ trở thành URL chuẩn, mặc dù nội dung của trang đó có thể truy cập được qua các URL khác [ví dụ: //yourstore.com/offers/black-tshirts/]

Bạn chỉ cần thêm thẻ canonical sau vào bất kỳ trang trùng lặp nào mà bạn muốn:

Lưu ý: nếu bạn đang sử dụng CMS, bạn không cần phải lo lắng về mã trang của mình. Còn một cách dễ dàng hơn.

Đặt thẻ Canonical trong WordPress:

Cài đặt Yoast SEO và các thẻ canonical tự tham chiếu sẽ được thêm một cách tự động. Để đặt tiêu chuẩn tùy chỉnh, bạn hãy sử dụng phần “Nâng cao” trên mỗi bài đăng hoặc trang.

Đặt thẻ Canonical trong Shopify:

Shopify thêm các URL canonical tự tham chiếu cho các sản phẩm và bài đăng trên blog theo dạng mặc định. Để đặt các URL chuẩn tùy chỉnh, bạn cần phải chỉnh sửa trực tiếp các tệp mẫu [.liquid].

Chủ đề này có một số thông tin về cách thực hiện điều đó.

Đặt thẻ chuẩn trong Squarespace:

Squarespace cũng thêm các URL tự tham chiếu theo dạng mặc định. Tuy nhiên, như trường hợp của Shopify, bạn cần phải chỉnh sửa lại mã trực tiếp nếu muốn thêm URL Canonical tùy chỉnh.

2. Đặt Canonical trong tiêu đề HTTP

Đối với các tài liệu dạng như PDF, không có cách nào để đặt các thẻ Canonical trong tiêu đề trang vì chúng không có phần trang . Trong những trường hợp như này, bạn sẽ cần sử dụng tiêu đề HTTP để đặt chuẩn. Ngoài ra, bạn cũng có thể sử dụng chúng trong tiêu đề HTTP trên các trang web canonical.

Ví dụ

Hãy tưởng tượng rằng tôi tạo một phiên bản PDF cho một bài đăng trên blog này và lưu trữ nó trong thư mục con blog của chúng tôi [vietmoz.edu.vn/blog/*]

Đây là tiêu đề HTTP mà tôi sẽ sử dụng đối với tệp đó:

HTTP/1.1 200 OK
Content-Type: application/pdf
Link: ; rel=”canonical”

3. Đặt tiêu chuẩn trong sơ đồ website

Google tuyên bố rằng các trang không có Canonical Tags không nên được đưa vào sơ đồ trang web. Chỉ các URL ‘Chuẩn’ mới được liệt kê. Đó là bởi vì Google xem các trang được liệt kê trong sơ đồ trang web là các trang ‘chuẩn’ được đề xuất.

Tuy nhiên, không phải lúc nào họ cũng chọn URL trong sơ đồ trang web làm chuẩn.

Chúng tôi không đảm bảo rằng, chúng tôi sẽ coi URL sơ đồ trang web là chuẩn, nhưng đó là một cách vô cùng đơn giản để xác định canonical cho một website lớn và sơ đồ trang web là một cách hữu ích nhằm cho Google biết những trang nào bạn coi là quan trọng nhất trên website của mình.

4. Đặt tiêu chuẩn với chuyển hướng 301

Sử dụng chuyển hướng 301 khi bạn muốn chuyển hướng lưu lượng truy cập khỏi URL trùng lặp và sang một phiên bản chuẩn.

Ví dụ

Giả sử trang của bạn có thể truy cập được tại các URL sau:

  • example.com
  • example.com/index.php
  • example.com/home/

Chọn một URL để làm chuẩn và chuyển hướng các URL khác ở đó.

Bạn cũng nên thực hiện tương tự đối với các phiên bản HTTPS / HTTP và www / không có www trên trang web của mình. Chọn ra một phiên bản chuẩn và chuyển hướng những phiên bản khác tới phiên bản đó.

Ví dụ: Phiên bản chuẩn của Vietmoz.edu.vn là URL HTTPS chứ không phải www [//vietmoz.edu.vn]. Tất cả các URL sau sẽ đều chuyển hướng đến đó:

  • //vietmoz.edu.vn/
  • //www.vietmoz.edu.vn/
  • //www.vietmoz.edu.vn/

5. Liên kết nội bộ [Internal Link]

Cách bạn liên kết từ trang này sang trang khác ở trên toàn bộ website của mình được coi là một tín hiệu chuẩn hóa.

John Mueller, nhà phân tích xu hướng quản trị trang web của Google, đề cập tới các tín hiệu được sử dụng nhằm xác định URL Canonical ở trong video #AskGoogleWebmasters dưới đây:

Bạn càng nhất quán với tất cả các tín hiệu này, thì các công cụ tìm kiếm càng dễ dàng xác định URL ‘Chuẩn’ ưa thích của bạn. Như John đã đề cập trong video, Google cũng ưu tiên HTTPS hơn là các URL HTTP hay các URL ‘đẹp hơn’.

Quá trình chuẩn hóa [Canonicalization] là một chủ đề hơi phức tạp. Sẽ có rất nhiều hiểu lầm và quan niệm sai lầm về cách thức chuẩn hóa đúng cách.

Dưới đây là một số sai lầm phổ biến của mọi người khi cố gắng chuẩn hóa [Canonicalization]:

Sai lầm #1: Chặn URL được chuẩn hóa qua robots.txt

Việc chặn một URL trong robots.txt sẽ ngăn việc Google thu thập dữ liệu, có nghĩa là họ sẽ không thể thấy bất kỳ thẻ Canonical nào trên trang đó. Ngược lại, điều đó sẽ ngăn họ chuyển bất kỳ “liên kết công bằng” nào từ không chuẩn sang thành chuẩn.

Sai lầm #2: Đặt mã trạng thái HTTP 4XX cho URL chuẩn hóa

Việc đặt mã trạng thái HTTP 4XX cho một URL được chuẩn hóa có tác dụng giống như việc sử dụng thẻ ‘noindex’: Google sẽ không thể nhìn thấy Canonical Tags và chuyển “vốn liên kết” sang phiên bản Canonical.

Sai lầm #3: Đặt URL Canonical thành ‘noindex’

Không bao giờ sử dụng cả noindex lẫn rel = canonical. Đây là hai thứ trái ngược với nhau.

Google thường sẽ ưu tiên thẻ Canonical hơn là ‘noindex’, như John Mueller đã chia sẻ ở đây. Nhưng nó vẫn thực sự không tốt. Nếu bạn muốn ngăn lập chỉ mục và chuẩn hóa một URL, hãy sử dụng chuyển hướng 301. Còn không, hãy sử dụng rel = canonical.

Sai lầm #4: Canonicalizing tất cả các trang được phân thành trang gốc

Các trang được phân trang không nên được chuẩn hóa thành trang gốc. Thay vào đó, các tiêu chuẩn tự tham chiếu nên được sử dụng trên tất cả các trang được phân trang.

Theo John Mueller chia sẻ trên Reddit, đây là cách sử dụng rel = canonical không đúng cách.

“Điều quan trọng mà bạn cần tránh. Vì bài đăng này là về canonicalization, sử dụng rel = canonical trên trang 2 trỏ đến trang 1. Do trang 2 không tương đương với trang 1, vậy nên rel = canonical như vậy sẽ không chính xác.”

Bạn cũng nên sử dụng thẻ rel = prev / next để phân trang. Những thứ này không còn được sử dụng bởi Google, nhưng hiện tại Bing vẫn đang sử dụng chúng.

Sai lầm #5: Rel = canonical trong

Rel = Canonical chỉ xuất hiện trong thẻ của tài liệu mà thôi. Thẻ Canonical xuất hiện trong phần của trang đều sẽ bị bỏ qua.

Mặc dù mã nguồn của một trang có thể là rel = canonical ở đúng vị trí, nhưng khi trang thực sự được tạo trong trình duyệt hay được hiển thị bởi công cụ tìm kiếm, nhiều thứ khác nhau như các thẻ sẽ không được đóng lại hay JavaScript được chèn hoặc ở trong có thể khiến kết thúc sớm trong hiển thị.

Trong những trường hợp này, một thẻ Canonical có thể vô tình bị ném vào của một trang được hiển thị mà nó sẽ không được ‘tôn trọng’.

Sai lầm #6: Có nhiều thẻ rel = canonical

Việc có quá nhiều thẻ rel = canonical sẽ khiến chúng có thể bị Google bỏ qua. Ở trong nhiều trường hợp, điều này thường xảy ra do các thẻ được chèn vào hệ thống ở các điểm khác nhau, chẳng hạn như CMS, chủ đề và các plugin. Đây là lý do vì sao nhiều plugin có tùy chọn ghi đè nhằm đảm bảo rằng chúng là nguồn duy nhất dành cho các thẻ Canonical.

Ở một lĩnh vực khác, nơi mà có thể là vấn đề với các bộ chuẩn được thêm bằng JavaScript. Nếu bạn không có URL Canonical được chỉ định trong phản hồi HTML và sau đó thêm thẻ rel = canonical với JavaScript thì nó sẽ được tuân thủ khi Google hiển thị trang. Tuy nhiên, nếu bạn có một trang chuẩn được chỉ định trong HTML và hoán đổi phiên bản ưa thích của mình thông qua JavaScript thì có nghĩa rằng bạn đang gửi các tín hiệu hỗn hợp tới Google.

Sai lầm #7: Không sử dụng thẻ Canonical với hreflang

Thẻ hreflang được sử dụng nhằm chỉ định nhắm mục tiêu dựa theo ngôn ngữ và địa lý của một trang web.

Google tuyên bố rằng khi sử dụng hreflang, bạn nên “chỉ định một trang chính tắc cùng một ngôn ngữ hoặc ngôn ngữ thay thế tốt nhất có thể, nếu một trang chuẩn không tồn tại cho cùng một ngôn ngữ”.

Facebook và Twitter cũng rất tôn vinh thẻ canonical và điều này có thể dẫn tới những tình huống lạ kỳ. Khi bạn chia sẻ một URL trên Facebook với một URL chính tắc trỏ tới nơi khác, Facebook sẽ chia sẻ thông tin chi tiết từ phía URL chuẩn.

Trên thực tế, nếu bạn thêm nút ‘thích’ tại một trang có một trang chính tắc trỏ tới nơi khác, nó sẽ hiển thị số lượt thích dành cho URL chính tắc, không phải cho URL hiện tại. Và Twitter cũng hoạt động theo cách tương tự như vậy. Vậy nên, hãy lưu ý điều này mỗi khi chia sẻ URL hay khi sử dụng những nút này.

Cách tìm và khắc phục sự cố Canonicalization trên trang web của bạn

Việc chuẩn hóa [canonicalization] rất dễ mắc lỗi, vì vậy bạn cần phải thường xuyên kiểm tra website của mình để tìm ra các vấn đề liên quan tới Canonical Tags và khắc phục chúng càng sớm càng tốt.

Dưới đây là mười hai vấn đề liên quan tới Canonical Tags, việc kiểm tra trang web có thể tìm thấy và cách khắc phục chúng:

1. Canonical trỏ tới 4XX

Cảnh báo này kích hoạt khi một hay nhiều trang được chuẩn hóa thành URL 4XX.

Tại sao nó lại là một vấn đề?

Các công cụ tìm kiếm không lập chỉ mục các trang 4XX vì chúng không hoạt động. Do đó, họ sẽ bỏ qua bất kỳ thẻ Canonical nào được trỏ tới các trang như vậy và thường kết thúc với việc lập chỉ mục sai phiên bản [không phải bản chuẩn] của trang.

Làm thế nào để khắc phục?

Xem lại các trang bị ảnh hưởng và thay thế các liên kết chuẩn [4XX] bằng các liên kết tới các trang [200] đang hoạt động mà bạn muốn được họ lập chỉ mục.

2. Canonical trỏ tới 5XX

Cảnh báo này sẽ kích hoạt khi một hay nhiều trang được chuẩn hóa thành URL 5XX.

Tại sao nó lại là một vấn đề?

Mã trạng thái HTTP 5XX cho biết sự cố về máy chủ, dẫn tới không thể truy cập được ‘trang chuẩn’. Google không có khả năng lập chỉ mục các trang không thể truy cập, do đó họ có thể bỏ qua trang chuẩn và không lập chỉ mục cho nó.

Làm thế nào để khắc phục?

Thay thế bất kỳ URL ‘chuẩn’ nào đang sai bằng các URL hợp lệ. Kiểm tra các cấu hình ‘sai’ của máy chủ nếu như trang chuẩn được chỉ định có vẻ chính xác. Lưu ý rằng, đây có thể là sự cố tạm thời nếu quá trình thu thập thông tin của Google diễn ra trong khi trang web bạn ngừng hoạt động để bảo trì hay máy chủ trang web của bạn đang bị quá tải.

3. Các điểm chuẩn để chuyển hướng

Cảnh báo này sẽ được kích hoạt khi một hoặc nhiều trang được chuẩn hóa thành URL được chuyển hướng.

Tại sao nó lại là một vấn đề?

Canonical Tags phải luôn được đặt trong phiên bản có thẩm quyền nhất ở trên một trang. Đây không phải là trường hợp của các URL chuyển hướng. Do đó, các công cụ tìm kiếm có thể bị hiểu sai hoặc bỏ qua quy tắc chuẩn.

Làm thế nào để khắc phục?

Thay thế các liên kết chuẩn bằng các liên kết trực tiếp tới phiên bản có thẩm quyền nhất của trang đó [tức là phiên bản trả về với mã trạng thái HTTP 200 và không chuyển hướng].

4. Các trang trùng lặp không có trang chuẩn Canonical

Cảnh báo này sẽ được kích hoạt khi tồn tại một hay nhiều trang bị trùng lặp hoặc thậm chí rất giống nhau, nên sẽ không chỉ định được phiên bản chuẩn.

Tại sao nó lại là một vấn đề?

Bởi vì không có bất kỳ trang chuẩn nào được chỉ định, Google sẽ cố gắng trong việc xác định phiên bản nào phù hợp nhất để tự hiển thị chúng ở trong kết quả tìm kiếm. Đây có thể không phải là phiên bản mà bạn muốn được lập chỉ mục.

Làm thế nào để khắc phục?

Kiểm tra lại các nhóm trùng lặp, chọn ra một phiên bản chuẩn để được lập chỉ mục ở trong kết quả tìm kiếm. Chỉ định ở đây là phiên bản chuẩn nhất trên tất cả những bản sao [và thêm thẻ canonical tự tham chiếu vào phiên bản chuẩn đó].

5. Hreflang sang không chuẩn

Cảnh báo này sẽ được kích hoạt khi một hay nhiều trang chỉ định URL ‘không chuẩn’ ở trong các chú thích hreflang của chúng.

Tại sao nó lại là một vấn đề?

Các liên kết trong thẻ hreflang phải luôn được trỏ tới các trang chuẩn. Việc liên kết tới phiên bản ‘không chuẩn’ của một trang từ các chú thú hreflang có thể gây nhầm lẫn, dẫn tới việc đánh lừa các công cụ tìm kiếm.

Làm thế nào để khắc phục?

Thay thế các liên kết trong chú thích hreflang của các trang bị ảnh hưởng bằng các liên kết chuẩn của chúng.

6. URL ‘chuẩn’ không có liên kết nội bộ

Cảnh báo này sẽ được kích hoạt khi mà một hoặc nhiều URL ‘chuẩn’ được chỉ định là không có liên kết nội bộ.

Tại sao nó lại là một vấn đề?

Các URL ‘chuẩn’ không có liên kết nội bộ không thể truy cập được đối với khách truy cập website. Thay vào đó, tại một nơi nào đó trên trang web, họ đang được điều hướng tới phiên bản ‘không chuẩn’ của trang.

Làm thế nào để khắc phục?

Thay thế bất kỳ liên kết nội bộ nào tới các trang được ‘chuẩn hóa’ bằng các liên kết trực tiếp tới các trang được cho là ‘chuẩn’.

7. Trang ‘không chuẩn’ trong sơ đồ của trang web

Cảnh báo này sẽ được kích hoạt khi một hay nhiều trang không ‘chuẩn’ được liệt kê vào trong sơ đồ trang web.

Tại sao nó lại là một vấn đề?

Google tuyên bố rằng, bạn không nên đưa các URL ‘không chuẩn’ vào trong sơ đồ trang web của mình. Lý do rằng họ thấy các trang trong sơ đồ trang web là trang ‘chuẩn’ được đề xuất. Bạn chỉ nên liệt kê các trang mà bạn muốn tập trung lập chỉ mục vào trong sơ đồ trang web.

Làm thế nào để khắc phục?

Xóa các URL không ‘chuẩn’ ra khỏi sơ đồ trang web của bạn.

8. Trang ‘không chuẩn’ lại được chỉ định là trang ‘chuẩn’

Cảnh báo này sẽ được kích hoạt khi một hay nhiều trang chỉ định một URL ‘chính tắc’ cũng chuẩn hóa được cho một trang khác. Điều này sẽ tạo ra một loạt chuỗi được coi là ‘chuẩn’, trong đó trang A được chuẩn hóa thành trang B, sau đó lại được chuẩn hóa thành trang C.

Tại sao nó lại là một vấn đề?

Các chuỗi ‘chuẩn’ này có thể gây nhầm lẫn và đánh lừa các công cụ tìm kiếm. Do đó, họ có thể bị hiểu sai hoặc bỏ qua các quy tắc đã được chỉ định.

Làm thế nào để khắc phục?

Thay thế các liên kết không hợp ‘chuẩn’ trong thẻ Canonical của các trang bị ảnh hưởng bằng các liên kết trực tiếp tới trang ‘chuẩn’.

Ví dụ: Nếu trang A được chuẩn hóa thành trang B, sau đó lại được chuẩn hóa thành trang C, hãy thay thế liên kết ‘chuẩn hóa’ trên trang A bằng một liên kết tới trang C.

9. URL biểu đồ mở không khớp với trang ‘chuẩn’

Cảnh báo này được kích hoạt khi có sự không khớp giữa URL chuẩn và Open Graph được chỉ định ở trên một hoặc nhiều trang.

Tại sao nó lại là một vấn đề?

Nếu URL của đồ thị mở không khớp với trang chính tắc, thì phiên bản không ‘chuẩn’ của một trang sẽ được chia sẻ ở trên các mạng xã hội.

Làm thế nào để khắc phục?

Thay thế URL biểu đồ mở trên các trang bị ảnh hưởng bằng URL ‘chuẩn’. Đảm bảo rằng hai URL này đều giống nhau.

Chú thích: URL bên trong thẻ Open Graph phải là tuyệt đối và sử dụng giao thức // hoặc //, như trường hợp của canonicals.

10. Chuẩn từ HTTPS sang HTTP

Cảnh báo này được kích hoạt khi một hay nhiều trang bảo mật [HTTPS] chỉ định phiên bản không bảo mật [HTTP] làm trang ‘chuẩn’.

Tại sao nó lại là một vấn đề?

HTTPS được coi là một yếu tố xếp hạng, vì vậy bạn nên chỉ định các phiên bản an toàn của các trang trở thành một trang ‘chuẩn’ nếu có thể.

Làm thế nào để khắc phục?

Chuyển hướng trang HTTP sang HTTPS tương đương. Nếu không, hãy thêm liên kết rel = “canonical” từ phiên bản HTTP của trang vào phiên bản HTTPS.

11. Chuẩn từ HTTP sang HTTPS

Cảnh báo này được kích hoạt khi một hay nhiều trang không bảo mật [HTTP] chỉ định phiên bản bảo mật [HTTPS] trở thành trang chuẩn.

Tại sao nó lại là một vấn đề?

HTTPS được ưu tiên hơn so với HTTP. Việc có phiên bản HTTP của một trang sau đò chỉ định phiên bản HTTPS làm trang chuẩn thì sẽ không hợp lý.

Làm thế nào để khắc phục?

Triển khai chuyển hướng 301 từ HTTP sang HTTPS. Bạn cũng nên thay thế bất kỳ liên kết nội bộ nào đến phiên bản HTTP của trang bằng các liên kết trực tiếp tới phiên bản HTTPS.

12. Trang không ‘chuẩn’ nhận được lưu lượng truy cập không phải trả tiền

Cảnh báo này được kích hoạt khi một hay nhiều trang ‘không chuẩn’ hiển thị trong kết quả tìm kiếm và nhận được lưu lượng truy cập tìm kiếm không phải trả tiền [điều này thường sẽ không xảy ra].

Tại sao nó lại là một vấn đề?

Thẻ Canonical của bạn được thiết lập không chính xác hoặc Google đã chọn bỏ qua thẻ Canonical được chỉ định.

Làm thế nào để khắc phục?

Kiểm tra xem các thẻ rel = canonical có được thiết lập chính xác ở trên tất cả các trang được báo cáo hay không. Nếu đó không phải là vấn đề, hãy sử dụng công cụ Kiểm tra URL trong Google Search Console để xem liệu họ có coi URL chuẩn được coi là ‘chuẩn’ hay không. Nếu có sự không khớp, hãy tìm xem lý do tại sao có thể xảy ra trường hợp này.

Kết luận

Thẻ Canonical thực sự không có gì phức tạp. Bạn chỉ cần nhớ rằng, các thẻ Canonical không phải là một chỉ thị mà đây là một tín hiệu dành cho các công cụ tìm kiếm. Nói theo cách khác, họ có thể chọn một quy tắc khác với quy tắc mà bạn đã khai báo.

Bạn có thể sử dụng công cụ kiểm tra URL của Google Search Console để xem cả trang ‘chuẩn’ do người dùng khai báo và do Google chọn.

Đây là những phân loại mà Google sử dụng trong Báo cáo trạng thái phạm vi lập chỉ mục của Google Search Console liên quan tới các URL ‘chuẩn’:

  • Trang thay thế có thẻ Canonical phù hợp: Điều này hiển thị các trang mà bạn đã chỉ định một trang thay thế với một thẻ canonical và nó được ‘tôn trọng’. Về cơ bản, nó sẽ hoạt động đúng như dự định để hợp nhất vào một trang mà bạn đã chọn.
  • Sao chép mà không có trang ‘chuẩn’ do người dùng chọn: Có các trang bị trùng lặp và không có trang nào trong số đó có trang ‘chuẩn’ được chọn. Ở trong trường hợp này, Google đã chọn một trang cho bạn, vậy nên nếu đó không phải là trang mà bạn thích thì bạn nên thêm thẻ rel = canonical.
  • Do bị trùng lặp, Google đã chọn một trang ‘chuẩn’ khác với người dùng: Điều này cho thấy, các trường hợp Google đã bỏ qua trang ‘chuẩn’ được đề xuất để chọn một phiên bản khác để hiển thị trong lập chỉ mục.
  • URL trùng lặp, đã gửi nhưng không được chọn làm chuẩn: Đây cũng là trường hợp tín hiệu chuẩn hóa [được gửi trong hồ sơ trang web] bị bỏ qua. Không có URL ‘chuẩn’ nào được đánh dấu một cách rõ ràng trong tập hợp các trang trùng lặp. Ở trong trường hợp này, Google tin rằng một URL khác ngoài URL bạn đã gửi sẽ được hiển thị trong chỉ mục.

Nếu có bất kỳ câu hỏi thắc mắc gì? Hãy để lại bình luận cho VietMoz Academy ở phía bên dưới nhé!

Chủ Đề