Поддерживать хорошее состояние сайта крайне важно для общего развития бизнеса. Ведь вы не знаете какие ошибки подкарауливают ваших посетителей на сайте. А их может быть очень много.
Конечно основные и самые значимые ошибки вам всегда подскажет Google Webmasters Tools, или Яндекс.Вебмастер. Но они не всемогущие и могут пропустить множества вариантов ошибок.
Достаточно раз в три месяца проводить полный технический аудит, чтобы быть спокойным за сайт.
Но что делать, если ваш сайт насчитывает большое количество страниц?
В интернете есть определенное количество программ и сервисов по сканированию сайтов, и в этой статье мы рассмотрим самые популярные методы и алгоритмы действий для сбора информации.
Также расскажу про небольшой лайфхак — Как сделать анализ большого сайта абсолютно бесплатно. Но обо всем по порядку.
Зачем нужны данные всех страниц? Для того, чтобы увидеть все ошибки сайта такие как: дубли, серверные ошибки, отсутствие важных тегов в тексте или в картинках и многое другое. Некоторые ошибки сайта мешают в продвижении, например если у вас есть полные дубли страниц, вам нужно выбрать которая из них главнее, иначе это сделает Поисковик за вас, и не всегда ту, которую вы хотели.
Есть платные варианты сканирования Big Data по техническим параметрам страниц:
Первый вариант — www.botify.com
Хороший сервис, который быстро сканирует ваш сайт и дает полный анализ страниц по 112 пунктам. Это очень много и очень полезно, но тут есть большая жирная галочка, которую мало кто поставит: цена.
Цены у них довольно таки кусающиеся
5 млн страниц за 419 Евро. или 10 млн страниц за 899 Евро в месяц
Но и возможностей тут столько, что вы не найдете нигде. Этот сервис для толсто-сайтов и толстосумов. Во время таких параличных подвижек с долларом, он нам не подходит. Тем более, что ценники у них в Евро.
Второй вариант — www.deepcrawl.com
Чуть поменьше, чуть по дешевле тарифы, чуть опять платно.
До 100 000 страниц — 80$, и по возрастанию. DeepCrawl даже дороже, чем прошлый сервис, но у него есть более дешевые первоначальные тарифы. Сервис тоже очень хороший, но мы же любим халяву, и не готовы расставаться с такой стоимостью за какой-то анализ.
Поехали дальше.
А дальше будет халява.
Бесплатные способы сканирования больших данных
Есть замечательный софт от Netpeak — Netpeak Spider, который совершенно бесплатен.
Его вполне достаточно для поверхностного анализа сайта, он подскажет важные ошибки, но вот не задача — это программа для компьютера и ее глубина сканирования ограничена мощностью вашего ПК.
Но есть замечательный способ, который решает абсолютно любой вопрос с глубиной и количеством страниц сайта:
Сканируйте по разделам
Вы не сможете за один раз отсканировать весь сайт на 100 000 страниц, но если разобьете его на разделы, и по очереди будете их сканировать, вы получите все данные.
На сайте Rozetka более 1 млн страниц. Даже разделы у него большие, если так, то берем подраздел и сканируем.
- Выбираем «Типа сканирования»
- Вставляем в URL ссылку на раздел, который хотите отсканировать.
Получаете информацию со всех разделов, и объединяете все ошибки в один xls. В итоге у вас на руках вся информация сайта. Хотя это может занять много времени, если разделов много и страниц много, но все же — это бесплатно.
Условно-бесплатный метод
Есть такая условно-бесплатная программа Screaming Frog SEO Spider. Ну как условно-бесплатная:
Ну вы поняли. В общем, программа, Screaming Frog SEO Spider, которая очень популярна в мире:
Умеет многое, очень полезна и информативна. Но опять косяк, чем слабее у вас компьютер, тем меньше вы сможете достать страниц с сайта. Если даже вы и отсканировали больше 20 000 страниц, не всегда она сможет сохранить проект, и тем более сделать выгрузку данных. Ну программа есть программа, она не может кушать бесконечное количество оперативной памяти.
Есть один способ увеличить объем оперативной памяти для программы:
Зайдите в папку расположения программы и откройте файл ScreamingFrogSEOSpider.l4j.ini и увеличьте объем потребляемой оперативки. По стандарту программа не «кушает» больше 512Mb. Вы можете ее увеличить, достаточно просто поменять ее по такому принципу, в зависимости от кол-ва памяти, которое вы можете выделить:
1GB: -Xmx1024M 2GB: -Xmx2048M 4GB: -Xmx4g 8GB: -Xmx8g
16GB: -Xmx16g
Этим вы значительно увеличите мощность и количество страниц для сканирования. Но если и это не помогает, то на ум приходит мега совет, который банальный до беспредела:
Сканируйте по разделам
Достаточно задать раздел в функции Include
И в новом окне добавить url раздела, который хотите отсканировать:
Потом опять же, собирайте данные в один XLS и весь сайт будет у вас на ладони.
Вместе с include вы можете использовать другую функцию exclude — она запрещает сканировать указанные URL.
Например если у вас большой один подраздел, а другие подразделы маленькие, просто запретите сканирование большого, чтобы закончить анализ Всего раздела.
Надеюсь эти советы помогут вам с Big Data.
Спасибо за внимание, с вами был ленивый Staurus.