Không đánh giá thấp sức mạnh của bộ lọc nâng cao khi phân tích dữ liệu

Nhà phân tích Glenn Gabe chia sẻ nhiều cách khác nhau để lọc dữ liệu thu thập dữ liệu để có được những hiểu biết có thể thực hiện được.

Trong khi giúp khách hàng giải quyết các cập nhật thuật toán lớn, khắc phục sự cố kỹ thuật về SEO và nhiều hơn nữa, tôi thường kiểm tra các trang web có quy mô lớn. Điều đó hầu như luôn luôn đòi hỏi phải thu thập thông tin trang web triệt để (thường là một vài lần thu thập dữ liệu qua cuộc đời đính hôn). Và khi bạn đang tìm kiếm các gremlins SEO có thể gây ra sự tàn phá trên một trang web, điều cực kỳ quan trọng là cắt và dice thu thập thông tin dữ liệu để tập trung phân tích của bạn.

Với lọc dữ liệu tốt, bạn thường có thể bề mặt các loại trang, các phần hoặc tên miền phụ có thể gây ra các vấn đề nghiêm trọng. Một khi đã nổi lên, bạn có thể phân tích rất nhiều các lĩnh vực này để hiểu rõ hơn về các vấn đề cốt lõi và sau đó giải quyết những vấn đề cần được khắc phục.

Từ quan điểm trình thu thập thông tin, tôi đã bao gồm hai mục yêu thích của tôi ở đây trên Search Engine Land, DeepCrawl và Screaming Frog. Cả hai đều là công cụ tuyệt vời và tôi thường sử dụng DeepCrawl để thu thập dữ liệu của doanh nghiệp trong khi sử dụng Screaming Frog để thu thập dữ liệu phẫu thuật, tập trung hơn. Theo tôi, kết hợp sử dụng DeepCrawl và Screaming Frog là kẻ giết người, và tôi thường nói rằng 1 + 1 = 3 khi sử dụng cả hai công cụ với nhau. Lưu ý: Trang này được dịch bằng phần mềm dịch máy, bấm vào đây để có được phiên bản tiếng Anh.

Dưới đây, tôi sẽ giới thiệu một số ví dụ về việc sử dụng lọc trong cả hai công cụ để bạn có thể cảm nhận được những gì tôi đang đề cập tới. Bằng cách lọc dữ liệu thu thập dữ liệu, bạn sẽ sẵn sàng để cô lập và di chuyển các khu vực cụ thể của một trang web để phân tích thêm. Và sau khi bạn bắt đầu làm việc này, bạn sẽ không bao giờ nhìn lại. Quẩy nào.

Ví dụ về lọc trong DeepCrawl
Các trang có thể lập chỉ mục

Hãy bắt đầu với một bộ lọc cơ bản, quan trọng nhưng quan trọng. Vấn đề chất lượng nội dung có thể rất khó hiểu ở nhiều cấp độ, và bạn chắc chắn muốn chắc chắn rằng những vấn đề này không có trên các trang có thể lập chỉ mục. Khi Google đánh giá một trang web từ góc độ chất lượng, nó sẽ xem xét toàn bộ trang web của bạn. Điều đó bao gồm mọi trang được lập chỉ mục. Đây là một video của John Mueller giải thích điều đó.

Do đó, khi bạn gặp vấn đề về trang web, tuyệt vời để lọc danh sách đó bằng các URL có thể lập chỉ mục để tập trung phân tích của bạn vào các trang có thể làm ảnh hưởng đến chất lượng trang web của bạn. Và tôi không nói để bỏ qua các URL khác vì chúng không được lập chỉ mục! Bạn cũng nên quan tâm đến họ. Hãy nhớ rằng, người dùng tương tác với các trang đó và bạn không muốn người dùng không vui. Thật đơn giản để cô lập các trang có thể được lập chỉ mục khi đào sâu vào nội dung và / hoặc các vấn đề về chất lượng khác.

Nội dung mỏng + regex cho loại trang = tuyệt vời

Đối với những người bạn yêu regex, tôi có tin tốt. DeepCrawl hỗ trợ biểu thức thông thường để lọc nâng cao. Vì vậy, bạn có thể chọn một bộ lọc và sau đó chọn "Kết hợp regex" hoặc "Không khớp regex" để thực hiện một số lọc phẫu thuật. Nhân tiện, thật tuyệt vời khi có bộ lọc "Không khớp với regex" để bắt đầu loại bỏ URL bạn muốn loại trừ so với bao gồm.

Ví dụ: hãy bắt đầu đơn giản bằng cách sử dụng các ký tự đường ống để kết hợp ba thư mục khác nhau trong bộ lọc. Một ký tự đường ống đại diện cho "hoặc" trong một biểu thức chính quy.

Hoặc, làm thế nào để loại trừ các thư mục cụ thể và sau đó tập trung vào các URL kết thúc chỉ với hai hoặc ba ký tự (đó là một ví dụ thực tế của các URL tôi được coi là vấn đề từ một quan điểm nội dung trong một cuộc kiểm toán cụ thể):

Bạn nhận được hình ảnh. Bạn có thể bao gồm hoặc loại trừ bất kỳ loại URL hoặc mẫu mà bạn muốn. Và bạn có thể lớp trên các bộ lọc để trau dồi bản báo cáo của mình. Thật tuyệt vời khi tập trung thu thập dữ liệu ở quy mô lớn.

Các vấn đề về Canonical: Đáp ứng tiêu đề

Năm ngoái tôi đã viết một bài về cách kiểm tra X-Robots-Tag để khắc phục sự cố các chỉ thị robot nguy hiểm tiềm tàng (vì chúng có thể được gửi qua phản hồi tiêu đề và không được nhìn thấy bằng mắt thường). Trên các trang web có quy mô lớn, điều này có thể cực kỳ nham hiểm, vì các trang có thể không được hiển thị khi chúng trông đẹp trên bề mặt.

Vâng, bạn có thể thiết lập rel rel thông qua các phản ứng tiêu đề, quá. Và điều đó có thể dẫn đến một số vấn đề lạ (có thể khiến bạn phát điên nếu bạn không biết các tiêu chuẩn được thiết lập như thế nào). Và trong một số trường hợp, bạn có thể kết thúc với nhiều thẻ chuẩn cho một URL (một thông qua phản hồi tiêu đề Và một bộ trong html). Khi điều đó xảy ra, Google có thể bỏ qua tất cả các thẻ kinh điển, như được giải thích trong bài đăng blog của họ về những sai lầm phổ biến với tiêu chuẩn canonical.

Bằng cách kiểm tra báo cáo "Các trang không có thẻ hợp lệ Canonical" và sau đó lọc theo cả tiêu đề tiêu đề và tiêu đề URL tương ứng, bạn có thể bề mặt tất cả các URL có vấn đề này. Sau đó, bạn có thể đào sâu với nhóm dev của bạn để xác định lý do tại sao đó đang xảy ra mã-khôn ngoan.

Tìm thấy tại URL! Xác định nguồn liên kết đến lỗi

Bạn chắc chắn sẽ gặp lỗi thu thập thông tin trong quá trình thu thập dữ liệu ở quy mô lớn (như 404, 500 và nhiều thứ khác). Chỉ cần biết các URL trở lại lỗi thường không đủ tốt. Bạn thực sự cần phải theo dõi những nơi mà các URL đó đang được liên kết từ khắp nơi trên trang web.

Bạn muốn giải quyết các vấn đề ở quy mô, chứ không chỉ là một lần. Để làm điều này, hãy lọc bằng "tìm thấy tại" các URL từ bất kỳ báo cáo lỗi thu thập dữ liệu nào (hoặc từ báo cáo không phải 200). Sau đó, bạn có thể sử dụng regex để hiển thị các loại trang và / hoặc thư mục có thể liên kết nhiều đến các trang trả về lỗi thu thập dữ liệu.

Kiểm tra lại AMP URL: Tất cả các liên kết rel

Sử dụng Các trang Di động Tăng tốc (AMP)? Để kiểm tra lại các URL bạn đang tham chiếu qua rel = amphtml trong html của bạn, bạn có thể kiểm tra báo cáo "Tất cả các liên kết" và lọc theo amphtml. Sau đó, bạn có thể áp dụng bộ lọc khác cho "URL đến" để đảm bảo rằng đó là những URL quảng cáo thực sự mà bạn đang tham khảo. Một lần nữa, đây chỉ là một ví dụ nhanh khác về cách lọc có thể khám phá ra những vấn đề nhức nhối đang ngồi dưới bề mặt.

Tải xuống CSV đã lọc

Tôi đã cung cấp một vài ví dụ về những gì bạn có thể làm với bộ lọc nâng cao khi phân tích dữ liệu thu thập thông tin trong DeepCrawl. Nhưng còn khi nào bạn muốn xuất dữ liệu đó? Vì bạn đã làm một công việc tuyệt vời lọc, bạn chắc chắn không muốn để mất dữ liệu được lọc khi xuất khẩu.

Vì lý do đó, DeepCrawl có một lựa chọn mạnh mẽ cho "Tạo CSV được lọc". Bằng cách sử dụng tính năng này, bạn có thể dễ dàng xuất chỉ dữ liệu được lọc so với toàn bộ enchilada. Sau đó bạn có thể phân tích sâu hơn trong Excel hoặc gửi cho nhóm của bạn và / hoặc khách hàng. Tuyệt vời.

Lọc trong Tiếng kêu Ếch
Đối với Screaming Frog, các bộ lọc không mạnh mẽ, nhưng bạn vẫn có thể lọc dữ liệu ngay trong giao diện người dùng. Nhiều người không biết điều này, nhưng regex được hỗ trợ trong hộp tìm kiếm. Vì vậy, bạn có thể sử dụng bất kỳ biểu thức chính quy nào bạn đang sử dụng trong DeepCrawl (hoặc ở nơi khác) để lọc URL theo loại báo cáo ngay trong Screaming Frog.

Ví dụ: kiểm tra mã phản hồi và muốn nhanh chóng kiểm tra các URL này theo thư mục? Sau đó sử dụng các ký tự đường ống để bao gồm các loại trang hoặc các thư mục cụ thể (hoặc các mẫu). Bạn sẽ thấy báo cáo thay đổi dựa trên regex.

Và bạn có thể tận dụng các báo cáo đã được lọc trước và sau đó tự mình lọc lớp. Ví dụ: bạn có thể kiểm tra các trang có tiêu đề dài và sau đó lọc bằng cách sử dụng cụm từ thông dụng để bắt đầu hiển thị các loại trang hoặc kiểu cụ thể.

Và bộ lọc áp dụng cho tất cả các cột! Vì vậy, bạn có thể sử dụng regex cho bất kỳ cột nào được liệt kê trong báo cáo cụ thể đó. Ví dụ: dưới đây tôi bắt đầu với tất cả các URL có chứa thẻ URL theo tiêu chuẩn và sau đó tôi đang bề mặt các URL chứa thẻ meta robots bằng "noindex".

Nếu một URL không được lập chỉ mục thì không được chứa thẻ URL theo tiêu chuẩn (cả hai đều đi ngược lại). Rel cung cấp cho các động cơ đó là URL ưa thích cho việc lập chỉ mục, trong khi thẻ meta robot sử dụng noindex khuyên các động cơ không lập chỉ mục URL. Điều đó không có ý nghĩa. Đây chỉ là một ví dụ nhanh về những gì bạn có thể làm với việc lọc Screaming Frog. Chú ý: Screaming Frog có báo cáo "canonical errors", nhưng đây là một cách nhanh chóng để lọc trong UI để giải quyết vấn đề.

Từ một quan điểm xuất khẩu, bạn không may không thể xuất dữ liệu chỉ được lọc. Nhưng bạn có thể nhanh chóng sao chép và dán dữ liệu được lọc vào Excel. Và ai biết được, có lẽ những người thông minh ở Screaming Frog sẽ xây dựng tùy chọn "lọc dữ liệu xuất".

Tóm tắt: Tất cả trong các bộ lọc
Tôi dành rất nhiều thời gian để thu thập thông tin các trang web và phân tích dữ liệu thu thập thông tin và tôi không thể nhấn mạnh đủ sức mạnh của việc lọc. Và khi bạn thêm hỗ trợ regex, bạn thực sự có thể bắt đầu cắt và dicing dữ liệu của bạn để đối phó với những vấn đề tiềm ẩn. Và nhanh hơn bạn có thể gây ra vấn đề, bạn càng nhanh chóng khắc phục những vấn đề này. Điều này đặc biệt quan trọng đối với các trang web có quy mô lớn với hàng chục nghìn, hàng trăm nghìn hoặc thậm chí hàng triệu trang. Vậy hãy tiếp tục ... lọc đi.

Search This Blog

Không đánh giá thấp sức mạnh của bộ lọc nâng cao khi phân tích dữ liệu

Comments

Post a Comment

Popular posts from this blog

Thêm phiên bản mobe cho web có ảnh hưởng đến SEO hay không?

Thay đổi nội dung web có thể bị tụt hạng website

Lee Min Ho