Cách phát hiện và sửa chữa vấn đề trùng lặp nội dung trên website
Tác giả: EQVN.NET | Chuyên mục: SEO | Ngày cập nhật: 14 - 12 - 2020
Chia sẻ bài viết này:
EQVN Blog – Bạn là người làm tối ưu hóa website với công cụ tìm kiếm (SEO)? Hay là webmaster? Vậy bạn đã biết gì về trùng lặp nội dung? Làm thế nào biết website đang gặp vấn đề trùng lặp nội dung? Và cách xử lí? Bài viết này sẽ giúp các bạn giải quyết tất cả những câu hỏi trên.
Nội dung bài viết:
- Những điều cơ bản của trùng lặp nội dung.
- Cách nhận biết website đang gặp vấn đề trùng lặp nội dung.
- Các công cụ miễn phí giúp tìm và sửa lỗi trùng lặp nội dung.
Lưu ý: Trong phạm vi bài viết này, ta sẽ tìm hiểu những điều cơ bản để giải quyết vấn đề trùng lặp nội dung trên website của riêng bạn và không bàn đến việc nội dung đó có bị sao chép và đăng lên website khác bởi đó là một vấn đề trùng lặp nội dung khác. Ta giữ vấn đề đơn giản nhất có thể được.
Trùng lặp nội dung là gì?
Đây là định nghĩa của Google về trùng lặp nội dung:
“Trùng lặp nội dung thường để chỉ các nội dung trên cùng domain (tên miền) hoặc trên các domain khác nhau mà chúng hoàn toàn giống nhau hay giống một cách gần như tuyệt đối. Hầu hết, điều này không bị xem là vi phạm bản gốc”.
Vấn đề này áp dụng vào website của bạn như thế nào? Chúng ta hãy cùng tìm hiểu dưới đây.
Trùng lặp nội dung trên toàn bộ tên miền của bạn
Nếu cùng một trang web/nội dung trên website của bạn có thể được truy cập thông qua các URL khác nhau thì có khả năng bạn đang gặp vấn đề trùng lặp nội dung (nói thế để trừ trường hợp bạn tạo ra các địa chỉ URL như thế một cách chủ ý).
Sự trùng lặp này xảy ra khi bạn không thiết lập một tên miền ưu tiên cho website của bạn, hoặc không chỉ ra cấu trúc URL ưu tiên cho website của bạn …Những vấn đề cần xem xét với tên miền:
- có hoặc không có www
- có hoặc không có dấu gạch chéo /
- có hoặc không có tên tập tin – ví dụ: index.php hoặc .html
- chữ hoa chữ thường trong địa chỉ URL
Ví dụ: nếu tất cả các URL này hiển thị cùng một trang nội dung thì chắc chắn bạn đang gặp vấn đề:
- http://yourwebsite.com/category/thepage
- http://yourwebsite.com/category/ThePage
- http://yourwebsite.com/category/thepage/
- http://yourwebsite.com/category/thepage.html
- http://www.yourwebsite.com/category/thepage
- http://www.yourwebsite.com/category/thepage/
- http://www.yourwebsite.com/category/thepage.html
… trừ khi bạn đã thực hiện 301 redirect đến phiên bản ưu tiên, hay nói với Google biết phiên bản nào cần được index… (sẽ nói thêm ở phần dưới).
Nội dung trùng lặp do các tham số động trên URL
Đôi khi hệ thống quản lý nội dung (CMS) tự động thêm những tham số động khác nhau vào URL ban đầu. Google sau đó lại index mỗi URLđó như một trang riêng biệt, mặc dù thực tế không phải như vậy.
Ví dụ, nếu bạn có blog và bật tính năng bình luận (comment) trên blog,thông thường sẽ có các liên kết trực tiếp đến mỗi bình luận trên blog của bạn. Trong trường hợp bạn đang sử dụng WordPress, các URL đến cùng một trang có thể trông như thế này:
- http://yourwebsite.com/blog/yourblogpost/
- http://yourwebsite.com/blog/yourblogpost/?replytocom=123
- http://yourwebsite.com/blog/yourblogpost/?replytocom=456
Nếu bạn đang sử dụng Joomla có nhiều hơn một menu, thì mỗi liên kết đến một trang lại có các tham số trênURL khác nhau. Thêm vào đó, trên Joomla có thể bạn gặp tình trạng có hai phiên bản cho cùng một trang, một phiên bản gốc html cùng một phiên bản pdf cho trang đó. Các công cụ tìm kiếm sẽ xem đây là nội dung trùng lặp.
Ta sẽ tiếp tục với cách kiểm tra và sửa lỗi trùng lặp nội dung này cho website của bạn.
Cách phát hiện trùng lặp nội dung trên website
Trùng lặp nội dung có thể được phát hiện bằng một số cách, và ở đây ta sẽ tìm hiểu những cách đơn giản và nhanh chóng, thuận tiện cho công việc.
Trùng lặp nội dung ở cấp độ tên miền (domain)
Một công cụ hữu hiệu để sử dụng cho kiểm tra nếu bạn có vấn đề với trùng lặp nội dung ở mức độ tên miền là “Search Masters Redirect check” (công cụ trực tuyến miễn phí để kiểm tra nội dung trùng lặp).
Một cách khác để kiểm tra là thực hiện tìm kiếm trong Google cho một trang cụ thể trên website của bạn. Nếu bạn nhận về nhiều hơn một kết quả, thì cần xem lại vì sao điều này xảy ra. Ví dụ, thực hiện tìm kiếm chính xác cho trang sau:
site:people.joomla.org/guidelines
Bạn sẽ thấy rằng bạn nhận được 2 kết quả – một cho phiên bản html, và một cho phiên bản pdf của trang web. Đây là một vấn đề phổ biến trong Joomla, do đó cần thận trọng khi lựa chọn một CMS cho website.
Trong trường hợp bạn muốn kiểm tra một loại tập tin cụ thể có bị lập chỉ mụctrên website, bạn có thể sử dụng toán tử “filetype” với các toán tử khác trong lệnh tìm kiếm. Ví dụ mẫu như sau (thay thế yourdomain.com với tên domain thực tế của bạn, và pdf bằng loại tập tin bạn cần kiểm tra):
site:yourdomain.com filetype:pdf
Nội dung trùng lặp do các tham số động trên URL
Trước khi tiếp tục: hãy kiểm tra kĩ sitemap của website. Liệu các trang được liệt kê chỉ xuất hiện một lần trong sơ đồ? Hay bạn đang để Google index nhiều địa chỉ URL cho cùng một trang? Đây là vấn đề cần giải quyết trước hết.
Sitemap như một danh sách báo cho các bộ máy tìm kiếm biết nên index những địa chỉ URL nào trên website của bạn. Tuy nhiên, các bộ máy tìm kiếm vẫn index nhiều trang với nhiều URL khác nhau do các vấn đề liên quan đến tên miền ưu tiên và các tham số động trên URL như đã nói ở trên. Sitemap chưa phải là cách an toàn để nói cho bộ máy tìm kiếm biết những URL nào bạn muốn được liệt kê trong kết quả tìm kiếm.
Nếu bạn đã biết những tham số động được thêm vào URL trên website, ví dụ như trong những bình luận trong WordPress, bạn có thể dễ dàng kiểm tra vấn đề trùng lặp nội dung bằng một lệnh tìm kiếm đơn giản với Google. Bạn không cần lo lắng phải biết hết mọi tham số được thêm website, do đây chỉ là bài kiểm tra nhanh để biết website có gặp phải vấn đề trùng lặp nội dung hay không.
Bạn gõ vào Google như sau:
site:joomlatips.com inURL:replytocom
Nhớ thay thế “joomlatips.com” với địa chỉ website của riêng bạn, và thay thế “replytocom” bằng tham số động mà bạn nghi có thể gây ra các vấn đề trùng lặp nội dung. Sau đó, có thể bạn sẽ thấy như thế này:
Như bạn có thể thấy, tham số “replytocom” đã bị chặn thông qua tập tin robots.txt, nhưng điều đó không có nghĩa Google không index những địa chỉ URL có tham số đó (con số 106 kết quả cho thấy sự trùng lặp nội dung).
Nội dung nào mang lại lưu lượng truy cập cho bạn từ tìm kiếm tự nhiên
Một điều bạn có thể làm là kiểm tra các URL nào đã mang lại cho bạn lưu lượng truy cập tự nhiên.
Đây chỉ là một mẹo giúp bạn có thể có thêm ý tưởng cho cấu trúc nội dung website của bạn, và xem các trang mà bạn không muốn index trong các công cụ tìm kiếm.
Trong tài khoản Google Analytics, bạn vào Traffic Sources > Sources > Search > Organic.
Google Analytics sẽ cho bạn danh sách các địa chỉ URL và công việc của bạn là kiểm tra nếu URL nào có dấu hiệu khả nghi, hãy đưa nó vào danh sách các URLcần sửa chữa.
Tới đây, bạn vừa kiểm tra xong tên miền, và các tham số động trên URL mà bạn biết. Giờ ta sẽ bắt tay vào việc hoàn thiện danh sách đầy đủ tất cả các URLđã được index, bao gồm cả những URL cần sửa chữa để tránh vấn đề trùng lặp nội dung cả trong hiện tại và trong tương lai.
Cách lấy danh sách tất cả các trang Google đã index trên website của bạn
Để tìm ra những trang đã được index, bạn phải có một danh sách tất cả các URL được indexcho website của bạn. Dưới đây là hướng dẫn giúp có được những nội dung trùng lặp đã được index.
Bước 1: Cài đặt plugin SEO Quake vào trình duyệt web (và chắc chắn rằng nó đã được kích hoạt trong trình duyệt của bạn)
Bước 2: Vào Google preferences. Tắt chế độ Instant results (để bạn có thể thay đổi số lượng hiển thị kết quả tìm kiếm mỗi trang). Sau đó thiết lập cho hiển thị 100 kết quả cho mỗi trang kết quả tìm kiếm (hoặc ít hơn nếu bạn nghĩ rằng website của bạn có ít trang được index hơn).
Tắt chế độ Google Instant PredectionsBước 3: Trở lại Google Search, gõ vào “site: yourwebsiteURL.com” (thay thế “yourwebsiteURL.com” bằng URLwebsite thực tế của bạn). Sau đó bạn sẽ chỉ nhìn thấy kết quả là các trang từ website của bạn trong kết quả tìm kiếm.
Bước 4: Bên dưới khung tìm kiếm, bạn sẽ thấy có thêmphần thông tin của SEOQuake. Đây là nơi bạn có thể xuất ra danh sách của tất cả các URLđã được index vào một tập tin csv mà bạn có thể mở ra trong Excel sau đó. Click vào nút “Save” để tải tập tin csv về máy tính của bạn.
Bước 5: Mở tập tin csv trong Excel (hoặc chương trình tương tự). Bây giờ bạn có thể sắp xếp lại các URL và dễ dàng thấy những URL mà bạn không muốn index có được liệt kê trong kết quả tìm kiếm hay không.
Tiếp theo đây ta sẽ tìm hiểu cách sửa chữa các vấn đề về trùng lặp nội dung mà bạn đã tìm ra.
Cách sửa chữa vấn đề trùng lặp nội dung
Bây giờ bạn biết chính xác vấn đề xảy ra với nội dung trên website của bạn và ta sẽ tiến hành sửa chữa chúng.
Thiết lập phiên bản ưu tiên cho tên miền (có www vs không có www)
Trước hết hãy xác định phiên bản URL bạn muốn sử dụng (có hoặc không có www). Sau đó, hãy chắc chắn rằng tất cả các phiên bản khác đều chuyển hướng đến phiên bản ưu tiên này.
1. Chuyển hướng tên miền từ phiên bản www sang phiên bản không có www (và ngược lại). Nếu website của bạn đang chạy trên Apache, ta có thể được thực hiện 301 redirect trong tập tin .htaccess. Nếu bạn không chắc chắn, hãy liên hệ với nhà cung cấp dịch vụ lưu trữ của bạn và họ sẽ giúp bạn.
2. Thiết lập tên miền ưu tiên trong Google Webmaster Tools. Xem thêm cách thiết lập tên miền ưu tiên trong Google Webmaster Tools.
Xóa bỏ các trang khỏi các kết quả tìm kiếm của Google
Sau những gì bạn đã làm với danh sách URL trong tập tin csv lấy về, bây giờ bạn đã có trong tay danh sách các URL mà bạn muốn xóa bỏ khỏi trang kết quả tìm kiếm của Google. Dưới đây là chi tiết cách bạn thực hiện điều đó:
Đăng nhập vào tài khoản Google Webmaster Tools của bạn, vàoOptimization > Remove URLs. Bạn lần lượt nhập vào các URL mà bạn muốn loại bỏ.
Dựa theo ảnh chụp màn hình, bạn nhập vào URL và nhấn “Continue”
Sau bước trên một cửa sổ khác hiện ra, bạn chọn vào “Remove page from search result and cache“.
Nhấp vào “Click Submit“, và lặp lại quá trình này cho đến khi bạn đã thêm tất cả các URL bạn muốn loại bỏ khỏi kết quả tìm kiếm.
Trên trang “RemoveURLs”, bạn cũng sẽ có thể để xem tình trạng của mỗi yêu cầu loại bỏđể theo dõi khi nào các URLđược xóa khỏi kết quả tìm kiếm.
Báo cho Google biết những tham số động trên URL không cần index trong tương lai
Trong Google Webmaster Tools có công cụ quản lí tham số để thông báo cho Google về bất kỳ tham số nào bạn muốn bỏ qua:
“If your site publishes content that can be reached via multiple URLs, you can gain more control over how yourURLs appear in search results by specifying a canonical (preferred) version of the URL. Using the parameter handling tool is one way to do this…”
Tạm dịch:
“Nếu website của bạn có nội dung có thể được truy cập thông qua nhiều URL, bạn có thể chọn một URL chuẩn (ưu tiên) làm phiên bản ưu tiên cho trang web đó nhằm kiểm soát tốt hơn việc các địa chỉ URL xuất hiện trong kết quả tìm kiếm. Sử dụng công cụ quản lí tham số là một cách để thực hiện điều này …”
Trong tài khoản Google Webmaster Tools của bạn, vào phần Configuration>URL Parameters. Ở đó bạn sẽ thấy một danh sách các tham số mà Google đã chọn cho website của bạn. Hãy xem qua chúng, và nhấp vào Edit để thay đổi các tùy chọn cho mỗi tham số.
Giúp Google thu thập dữ liệu trang web của bạn hiệu quả hơn bằng cách chỉ ra cách xử lý các thông số trong URL của bạn.
Video sau sẽ giúp hiểu rõ hơn vấn đề này:
Tới đây ta đã kết thúc bài Cách phát hiện và sửa chữa vấn đề trùng lặp nội dung trên website. Nếu bạn có ý tưởng hay đóng góp nào cho bài viết, vui lòng chia sẻ lại bên dưới để mọi người cùng có một website “đẹp hơn”, thân thiện với người dùng cũng như để nâng cao kĩ thuật SEO với nhau.
Vui lòng ghi rõ nguồn https://eqvn.net khi đăng lại nội dung này
:
Chia sẻ bài viết này:
Giới thiệu về tác giả
EQVN là đơn vị tiên phong trong lĩnh vực đào tạo Digital Marketing tại Việt Nam từ năm 2003. Là đối tác chính thức với Facebook, Google, Zalo và các đối khác trong ngành
Bài viết cùng chủ đề
“Nghiên cứu” là cụm từ thường thấy nhất khi bạn tiến hành các hoạt động SEO, như nghiên cứu từ khóa, ý tưởng, chất lượng backlink… Tuy nhiên, trong số…
Các công cụ tìm kiếm và robot ko thể diễn tả hình ảnh, nhưng hình ảnh đóng một phần rất cần thiết để diễn tả một trang web hay một…
Title tag- thẻ tiêu đề của một trang web là một tín hiệu để Google xếp hạng trang web và tạo ấn tượng đầu tiên với người dùng hỗ trợ…
SEO (Search Engine Optimization) đã trở thành một phần quan trọng không thể thiếu trong chiến lược quảng cáo. Tuy nhiên, để hiểu rõ cách SEO nâng cao vị trí…
Tối ưu hóa công cụ tìm kiếm Google Maps luôn được các doanh nghiệp hết sức quan tâm vì đây là cách tuyệt vời để xây dựng thương hiệu mạnh…
Đào tạo, tư vấn giải pháp và
triển khai Digital Marketing
Được thành lập vào tháng 4 năm 2003 và bắt đầu đào tạo Digital Marketing vào năm 2009. Với mục tiêu, Hỗ trợ doanh nghiệp và các cá nhân nắm bắt cơ hội và khai thác tối đa ứng dụng của Internet vào hoạt động kinh doanh.
Liên hệ chúng tôi qua mạng xã hội
Dịch vụ Digital Marketing
Chuyên mục Digital Marketing
Khóa học Digital Marketing