Главная / Технический аудит / Сканирование больших сайтов на наличие ошибок
Сканирование больших сайтов на наличие ошибок

Сканирование больших сайтов на наличие ошибок

Поддерживать хорошее состояние сайта крайне важно для общего развития бизнеса. Ведь вы не знаете какие ошибки подкарауливают ваших посетителей на сайте. А их может быть очень много. 

Конечно основные и самые значимые ошибки вам всегда подскажет Google Webmasters Tools, или Яндекс.Вебмастер. Но они не всемогущие и могут пропустить множества вариантов ошибок.

Достаточно раз в три месяца проводить полный технический аудит, чтобы быть спокойным за сайт.

Но что делать, если ваш сайт насчитывает большое количество страниц?

В интернете есть определенное количество программ и сервисов по сканированию сайтов, и в этой статье мы рассмотрим самые популярные методы и алгоритмы действий для сбора информации.

Также расскажу про небольшой лайфхак — Как сделать анализ большого сайта абсолютно бесплатно. Но обо всем по порядку.

Зачем нужны данные всех страниц? Для того, чтобы увидеть все ошибки сайта такие как: дубли, серверные ошибки, отсутствие важных тегов в тексте или в картинках и многое другое. Некоторые ошибки сайта мешают в продвижении, например если у вас есть полные дубли страниц, вам нужно выбрать которая из них главнее, иначе это сделает Поисковик за вас, и не всегда ту, которую вы хотели.

Есть платные варианты сканирования Big Data по техническим параметрам страниц:

Первый вариант — www.botify.com

Хороший сервис, который быстро сканирует ваш сайт и дает полный анализ страниц по 112 пунктам. Это очень много и очень полезно, но тут есть большая жирная галочка, которую мало кто поставит: цена.

Цены у них довольно таки кусающиеся

Botify Our Pricing SEO Crawler and Log Analyzer - Google Chrome

5 млн страниц за 419 Евро. или 10 млн страниц за 899 Евро в месяц

Но и возможностей тут столько, что вы не найдете нигде. Этот сервис для толсто-сайтов и толстосумов. Во время таких параличных подвижек с долларом, он нам не подходит. Тем более, что ценники у них в Евро.

Второй вариант — www.deepcrawl.com

Чуть поменьше, чуть по дешевле тарифы, чуть опять платно.

Pricing - DeepCrawl Website Crawler - Google Chrome

До 100 000 страниц — 80$, и по возрастанию. DeepCrawl даже дороже, чем прошлый сервис, но у него есть более дешевые первоначальные тарифы. Сервис тоже очень хороший, но мы же любим халяву, и не готовы расставаться с такой стоимостью за какой-то анализ.

Поехали дальше.

А дальше будет халява.

Бесплатные способы сканирования больших данных

Есть замечательный софт от Netpeak — Netpeak Spider, который совершенно бесплатен.

Netpeak Spider — бесплатная SEO-программа для сканирования и анализа сайта с помощью собственного робота - Google Chrome

Его вполне достаточно для поверхностного анализа сайта, он подскажет важные ошибки, но вот не задача — это программа для компьютера и ее глубина сканирования ограничена мощностью вашего ПК.

Но есть замечательный способ, который решает абсолютно любой вопрос с глубиной и количеством страниц сайта:

Сканируйте по разделам

Вы не сможете за один раз отсканировать весь сайт на 100 000 страниц, но если разобьете его на разделы, и по очереди будете их сканировать, вы получите все данные.

Вот для примера:

как сканировать большой сайт с помощью spider netpeak

На сайте Rozetka более 1 млн страниц. Даже разделы у него большие, если так, то берем подраздел и сканируем.

  1. Выбираем «Типа сканирования»
  2. Вставляем в URL ссылку на раздел, который хотите отсканировать.

Получаете информацию со всех разделов, и объединяете все ошибки в один xls. В итоге у вас на руках вся информация сайта. Хотя это может занять много времени, если разделов много и страниц много, но все же — это бесплатно.

Условно-бесплатный метод

Есть такая условно-бесплатная программа Screaming Frog SEO Spider. Ну как условно-бесплатная:

77a7ff2532630d7cb51d559ca10bdeac

Ну вы поняли. В общем, программа, Screaming Frog SEO Spider, которая очень популярна в мире:

Screaming-Frog-SEO-Spider

Умеет многое, очень полезна и информативна. Но опять косяк, чем слабее у вас компьютер, тем меньше вы сможете достать страниц с сайта. Если даже вы и отсканировали больше 20 000 страниц, не всегда она сможет сохранить проект, и тем более сделать выгрузку данных. Ну программа есть программа, она не может кушать бесконечное количество оперативной памяти.

Есть один способ увеличить объем оперативной памяти для программы:

DProgram Files (x86)Screaming Frog SEO Spider3ScreamingFrogSEOSpider.l4j.ini - Notepad++

Зайдите в папку расположения программы и откройте файл ScreamingFrogSEOSpider.l4j.ini и увеличьте объем потребляемой оперативки. По стандарту программа не «кушает» больше 512Mb. Вы можете ее увеличить, достаточно просто поменять ее по такому принципу, в зависимости от кол-ва памяти, которое вы можете выделить:

1GB: -Xmx1024M
2GB: -Xmx2048M
4GB: -Xmx4g
8GB: -Xmx8g
16GB: -Xmx16g

Этим вы значительно увеличите мощность и количество страниц для сканирования. Но если и это не помогает, то на ум приходит мега совет, который банальный до беспредела:

Сканируйте по разделам

Достаточно задать раздел в функции IncludeScreaming Frog SEO Spider 5.1 - Spider Mode

И в новом окне добавить url раздела, который хотите отсканировать:

234

Потом опять же, собирайте данные в один XLS и весь сайт будет у вас на ладони.

Вместе с include вы можете использовать другую функцию exclude — она запрещает сканировать указанные URL.

Например если у вас большой один подраздел, а другие подразделы маленькие, просто запретите сканирование большого, чтобы закончить анализ Всего раздела.

Надеюсь эти советы помогут вам с Big Data.

Спасибо за внимание, с вами был ленивый Staurus.

3 комментария

  1. Виталий Тихомиров

    Netpeak Spider рулит !!!

  2. Влияние вышеперечисленных проблем имеет наибольшее значение для старых и больших сайтов. Побочные эффекты миграций, ребрендинга, изменения структуры URL и интернационализации с течением времени усугубляются. К счастью, затраты на исправление этих проблем нужны небольшие, в то время как эффект может быть значительным.

  1. Pingback: Сравнительный анализ 15-ти SEO краулеров интернета — Staurus.net

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *