Главная / Технический аудит / Сканирование больших сайтов на наличие ошибок
skaniruem-bolshoy-ob'em-informatsii-na-sayte

Сканирование больших сайтов на наличие ошибок

Поддерживать хорошее состояние сайта крайне важно для общего развития бизнеса. Ведь вы не знаете какие ошибки подкарауливают ваших посетителей на сайте. А их может быть очень много. 

Конечно основные и самые значимые ошибки вам всегда подскажет Google Webmasters Tools, или Яндекс.Вебмастер. Но они не всемогущие и могут пропустить множества вариантов ошибок.

Достаточно раз в три месяца проводить полный технический аудит, чтобы быть спокойным за сайт.

Но что делать, если ваш сайт насчитывает большое количество страниц?

В интернете есть определенное количество программ и сервисов по сканированию сайтов, и в этой статье мы рассмотрим самые популярные методы и алгоритмы действий для сбора информации.

Также расскажу про небольшой лайфхак — Как сделать анализ большого сайта абсолютно бесплатно. Но обо всем по порядку.

Зачем нужны данные всех страниц? Для того, чтобы увидеть все ошибки сайта такие как: дубли, серверные ошибки, отсутствие важных тегов в тексте или в картинках и многое другое. Некоторые ошибки сайта мешают в продвижении, например если у вас есть полные дубли страниц, вам нужно выбрать которая из них главнее, иначе это сделает Поисковик за вас, и не всегда ту, которую вы хотели.

Есть платные варианты сканирования Big Data по техническим параметрам страниц:

Первый вариант — www.botify.com

Хороший сервис, который быстро сканирует ваш сайт и дает полный анализ страниц по 112 пунктам. Это очень много и очень полезно, но тут есть большая жирная галочка, которую мало кто поставит: цена.

Цены у них довольно таки кусающиеся

Botify Our Pricing SEO Crawler and Log Analyzer - Google Chrome

5 млн страниц за 419 Евро. или 10 млн страниц за 899 Евро в месяц

Но и возможностей тут столько, что вы не найдете нигде. Этот сервис для толсто-сайтов и толстосумов. Во время таких параличных подвижек с долларом, он нам не подходит. Тем более, что ценники у них в Евро.

Второй вариант — www.deepcrawl.com

Чуть поменьше, чуть по дешевле тарифы, чуть опять платно.

Pricing - DeepCrawl Website Crawler - Google Chrome

До 100 000 страниц — 80$, и по возрастанию. DeepCrawl даже дороже, чем прошлый сервис, но у него есть более дешевые первоначальные тарифы. Сервис тоже очень хороший, но мы же любим халяву, и не готовы расставаться с такой стоимостью за какой-то анализ.

Поехали дальше.

А дальше будет халява.

Бесплатные способы сканирования больших данных

Есть замечательный софт от Netpeak — Netpeak Spider, который совершенно бесплатен.

Netpeak Spider — бесплатная SEO-программа для сканирования и анализа сайта с помощью собственного робота - Google Chrome

Его вполне достаточно для поверхностного анализа сайта, он подскажет важные ошибки, но вот не задача — это программа для компьютера и ее глубина сканирования ограничена мощностью вашего ПК.

Но есть замечательный способ, который решает абсолютно любой вопрос с глубиной и количеством страниц сайта:

Сканируйте по разделам

Вы не сможете за один раз отсканировать весь сайт на 100 000 страниц, но если разобьете его на разделы, и по очереди будете их сканировать, вы получите все данные.

Вот для примера:

как сканировать большой сайт с помощью spider netpeak

На сайте Rozetka более 1 млн страниц. Даже разделы у него большие, если так, то берем подраздел и сканируем.

  1. Выбираем «Типа сканирования»
  2. Вставляем в URL ссылку на раздел, который хотите отсканировать.

Получаете информацию со всех разделов, и объединяете все ошибки в один xls. В итоге у вас на руках вся информация сайта. Хотя это может занять много времени, если разделов много и страниц много, но все же — это бесплатно.

Условно-бесплатный метод

Есть такая условно-бесплатная программа Screaming Frog SEO Spider. Ну как условно-бесплатная:

77a7ff2532630d7cb51d559ca10bdeac

Ну вы поняли. В общем, программа, Screaming Frog SEO Spider, которая очень популярна в мире:

Screaming-Frog-SEO-Spider

Умеет многое, очень полезна и информативна. Но опять косяк, чем слабее у вас компьютер, тем меньше вы сможете достать страниц с сайта. Если даже вы и отсканировали больше 20 000 страниц, не всегда она сможет сохранить проект, и тем более сделать выгрузку данных. Ну программа есть программа, она не может кушать бесконечное количество оперативной памяти.

Есть один способ увеличить объем оперативной памяти для программы:

DProgram Files (x86)Screaming Frog SEO Spider3ScreamingFrogSEOSpider.l4j.ini - Notepad++

Зайдите в папку расположения программы и откройте файл ScreamingFrogSEOSpider.l4j.ini и увеличьте объем потребляемой оперативки. По стандарту программа не «кушает» больше 512Mb. Вы можете ее увеличить, достаточно просто поменять ее по такому принципу, в зависимости от кол-ва памяти, которое вы можете выделить:

1GB: -Xmx1024M
2GB: -Xmx2048M
4GB: -Xmx4g
8GB: -Xmx8g
16GB: -Xmx16g

Этим вы значительно увеличите мощность и количество страниц для сканирования. Но если и это не помогает, то на ум приходит мега совет, который банальный до беспредела:

Сканируйте по разделам

Достаточно задать раздел в функции IncludeScreaming Frog SEO Spider 5.1 - Spider Mode

И в новом окне добавить url раздела, который хотите отсканировать:

234

Потом опять же, собирайте данные в один XLS и весь сайт будет у вас на ладони.

Вместе с include вы можете использовать другую функцию exclude — она запрещает сканировать указанные URL.

Например если у вас большой один подраздел, а другие подразделы маленькие, просто запретите сканирование большого, чтобы закончить анализ Всего раздела.

Надеюсь эти советы помогут вам с Big Data.

Спасибо за внимание, с вами был ленивый Staurus.

2 комментария

  1. Виталий Тихомиров

    Netpeak Spider рулит !!!

  2. Влияние вышеперечисленных проблем имеет наибольшее значение для старых и больших сайтов. Побочные эффекты миграций, ребрендинга, изменения структуры URL и интернационализации с течением времени усугубляются. К счастью, затраты на исправление этих проблем нужны небольшие, в то время как эффект может быть значительным.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *