Screaming Frog SEO Spider Update – Version 22.0 (перевод)

Мы рады объявить о выпуске версии 22.0 Screaming Frog SEO Spider, внутренне получившей кодовое название «knee-deep» (по колено). Этот релиз включает обновления, основанные на отзывах пользователей, а также захватывающие новые функции, построенные на основе возможностей, представленных в предыдущем релизе. Давайте разберем, что нового!

Основные обновления

1. Анализ семантической схожести

Теперь вы можете анализировать семантическую схожесть страниц в процессе сканирования, чтобы выявлять дублированный, похожий или потенциально нерелевантный контент на сайте.

Эта функция выходит за рамки традиционного обнаружения дублированного контента, основанного на текстовом совпадении, за счет использования эмбеддингов (векторных представлений) больших языковых моделей (LLM), которые фиксируют семантический смысл и взаимосвязь слов. Это позволяет выявлять страницы с разными формулировками, но пересекающимися темами, которые могут охватывать один и тот же предмет несколько раз, что может приводить к каннибализации или неэффективности при сканировании и индексации.

Если вы не знакомы с эмбеддингами, рекомендуем ознакомиться со статьей Майка Кинга «Vector Embeddings is All You Need» (Векторные эмбеддинги — это все, что вам нужно). Многие SEO-специалисты вдохновились этими концепциями и начали экспериментировать, создавая различные инструменты.

С помощью существующих интеграций с провайдерами искусственного интеллекта через меню Config > API Access > AI (включая OpenAI, Gemini и Ollama) вы можете собирать векторные эмбеддинги страниц.

Для активации анализа семантического контента, поиска и визуализаций включите использование эмбеддингов в меню Config > Content > Embeddings.

После завершения сканирования и выполнения анализа краулинга в вкладке Content появятся фильтры Semantically Similar (Семантически похожие) и Low Relevance Content (Нерелевантный контент). Подробности настройки эмбеддингов описаны в нашем руководстве пользователя.

Семантически похожие страницы
Вкладка Content и фильтр Semantically Similar показывают ближайший семантически похожий адрес для каждой страницы, а также оценку семантической схожести и количество семантически похожих URL.

В нижней вкладке Duplicate Details с фильтром Semantic Similarity отображаются все семантически похожие URL вместе с проанализированным контентом. Оценка семантической схожести варьируется от 0 до 1: чем выше оценка, тем выше схожесть с ближайшим семантически похожим адресом. По умолчанию страницы с оценкой выше 0.95 считаются семантически похожими, но порог можно настроить в Config > Content > Embeddings вплоть до 0.5.

Нерелевантный контент
Векторные эмбеддинги также позволяют выявлять страницы, которые потенциально отклоняются от общей тематики сайта, путем вычисления среднего эмбеддинга всех просканированных страниц (так называемого «центроида»). Измерение отклонения эмбеддингов страниц от среднего эмбеддинга сайта было упомянуто в утечке Google, и SEO-специалисты экспериментировали с этой концепцией для поиска аномалий. Аномалии — это страницы, наиболее удаленные от среднего значения, которые могут указывать на нерелевантный или менее тематически связанный контент. Такие страницы отображаются во вкладке Content под фильтром Low Relevance Content.

На нашем сайте эта функция выявила посты в блоге о факеле Олимпийских игр в Хенли, статью о возвращении к работе после декрета и страницу входа в систему как аномалии по сравнению с остальным контентом, ориентированным на техническое SEO. Хотя мы не собираемся удалять эти страницы, очевидно, что их содержание отклоняется от основной тематики сайта.

Ознакомьтесь с нашим полным руководством по выявлению семантически похожих страниц и аномалий.

Дополнительные применения анализа семантической схожести:

Улучшение внутренней перелинковки: Используйте нижнюю вкладку Duplicate Details и фильтр Semantic Similarity для улучшения перелинковки между семантически похожими страницами.
Сопоставление URL для редиректов: Сканируйте старый и новый сайты вместе, чтобы получить список ближайших семантически похожих URL на основе текста страниц для настройки редиректов.
Анализ семантической схожести любых элементов: Выберите, например, «заголовки страниц» вместо «текста страниц» для эмбеддингов, чтобы найти почти дублированные заголовки.

Мы с нетерпением ждем, как пользователи будут применять эту новую функциональность, что вдохновит нас на дальнейшее развитие инструмента.

2. Визуализация семантических кластеров контента

Диаграмма кластеров контента доступна через меню Visualisations > Content Cluster Diagram. Это двухмерная визуализация URL из вашего сканирования, размещенных и сгруппированных на основе данных эмбеддингов. Она помогает выявлять шаблоны и взаимосвязи в контенте сайта, где семантически похожий контент группируется вместе.

Пример диаграммы показывает семантические связи на сайте о животных. Интересно наблюдать, как семантика повторяет таксономию животных: популяции тигров плотно сгруппированы, ближайший сосед — гибрид лигра между тигром и львом, затем идут другие крупные кошки, такие как леопарды, ягуары и гепарды.

Диаграммы позволяют визуализировать масштаб кластеров контента на сайте или выявлять потенциальные тематические кластеры, которые семантически связаны, но могут быть плохо интегрированы для пользователей. Например, на сайте BBC можно легко увидеть масштаб различных разделов, таких как рецепты. Также можно заметить аномалии, изолированные от других узлов на краях диаграммы, такие как упомянутые ранее страницы на нашем сайте.

Через значок шестеренки можно настроить выборку, снижение размерности, кластеризацию и цветовые схемы. Диаграмма кластеров контента также работает с сегментами, позволяя визуализировать контент в определенной области или разделе сайта. Мы планируем дополнить эти диаграммы данными сканирования для получения дополнительных инсайтов.

3. Семантический поиск

Новая вкладка Semantic Search в правой части интерфейса позволяет вводить поисковый запрос и видеть наиболее релевантные страницы в сканировании. Эта функция векторизует поисковый запрос и вычисляет косинусное сходство между запросом и страницами в сканировании, используя векторные эмбеддинги вместо ключевых слов. Это позволяет количественно оценить релевантность контента для запроса для всех страниц в сканировании и больше соответствует тому, как современные поисковые системы и большие языковые модели возвращают контент, а не простому наличию и совпадению ключевых слов в тексте.

Эта функция может использоваться для поиска релевантных страниц для маппинга ключевых слов, связанных страниц для внутренней перелинковки или анализа конкурентов по ключевым словам. Фильтр Embedding Display можно настроить на режим Centroid, чтобы получить больше информации об аномалиях на сайте и о «наиболее представительной странице», ближайшей к среднему эмбеддингу всего сайта.

Если вы собрали эмбеддинги из разных языковых моделей, вы можете переключать фильтр вверху, чтобы просматривать различные результаты. Как и другие новые функции, очевидно, как эту возможность можно расширить в будущих обновлениях.

4. Улучшения интеграции с искусственным интеллектом

Мы внедрили ряд улучшений в интеграцию с искусственным интеллектом, чтобы сделать ее еще более продвинутой, гибкой и сократить расход кредитов и запросов. Ключевые улучшения включают:

Множественные цели в промптах: Теперь вы можете нажать на шестеренку рядом с промптом и создать более сложный промпт, включающий несколько целевых элементов.
Запуск промптов для определенных сегментов и проблем: Вы можете настроить выполнение AI-промптов только для URL, соответствующих определенному сегменту. Это позволяет создавать сегменты для различных сценариев, где должны применяться промпты, и не тратить кредиты впустую. В сложных промптах можно выбрать опцию Match on Segment. Также теперь можно сегментировать на основе Issues (проблем). Например, вы можете создавать альтернативный текст только для изображений в сегменте с проблемой «Missing Alt Text» (отсутствующий альтернативный текст), а не для всех изображений.
Ссылка на данные URL: Данные из вкладки URL Details теперь можно использовать в AI-промптах для большей гибкости.
Пользовательский endpoint: Теперь можно настроить endpoint OpenAI, что позволяет использовать частные API больших языковых моделей и других провайдеров с аналогичной структурой, таких как DeepSeek, Microsoft Copilot или Grok, с использованием соответствующего API-ключа.
Также можно настраивать параметры модели, заголовки и ограничивать длину контента страницы, чтобы избежать ошибок превышения токенов на длинных страницах.
Интеграция с Anthropic: Как и в случае с OpenAI, Gemini и Ollama, теперь вы можете интегрироваться с Anthropic (Claude) через Config > API Access для выполнения AI-промптов во время сканирования.
Генерация изображений и речи из текста: Мы добавили возможность генерации изображений и преобразования текста в речь для OpenAI и Gemini. Например, это можно использовать для сканирования постов в блоге и создания главного изображения для каждого из них. SEO Spider показывает предварительный просмотр изображения или звука в интерфейсе, который можно развернуть или прослушать.

5. Расширенный конфигуратор столбцов

Как и в случае с настройкой вкладок, теперь вы можете настраивать столбцы с помощью расширенного конфигуратора, который позволяет выбирать, скрывать и изменять порядок столбцов массово. Это делает настройку столбцов менее трудоемкой.

6. Пользовательский массовый экспорт

В меню Bulk Export появилась новая опция Multi Export, которая позволяет выбрать любую вкладку, массовый экспорт или отчет для экспорта одним кликом.

Если у вас есть набор часто используемых отчетов для сканирований или специфические экспорты для определенных сайтов, вы можете сохранить их как пресеты и использовать по необходимости как в интерфейсе, так и в планировщике или командной строке.

7. Экспорт в несколько вкладок в одном листе/книге

При массовом экспорте вручную или через планировщик вы теперь можете выбрать опцию «консолидировать таблицы». Вместо экспорта каждой вкладки, массового экспорта или отчета в отдельный файл, все будет экспортировано в отдельные вкладки в одной Google Sheet или книге Excel.

8. Загрузка нескольких XML-карт сайта

В режиме списка (List Mode) теперь можно загружать несколько XML-карт сайта вместо использования единого файла индекса карт сайта.

9. Загрузка из Google Sheets

В режиме списка вы можете выбрать Google Sheet в качестве источника. Все URL, указанные в Google Sheet, будут загружены и просканированы.

Вы можете ввести данные Google Drive, чтобы SEO Spider получил доступ к приватным Google Sheets. Эта функция открывает возможности для автоматизации, так как вы можете управлять списком URL для сканирования с помощью Google Sheets и связанных дополнений или скриптов. Эта возможность также доступна в планировщике и командной строке.

10. Получение данных API без сканирования или повторного сканирования

Новый режим APIs (Mode > APIs) позволяет загружать URL и получать данные из любых API без необходимости сканирования, что ускоряет процесс.

Дополнительные улучшения API включают:

Кнопка Request API Data в правой вкладке APIs теперь активна каждый раз, когда вы приостанавливаете сканирование с подключенным API, а не только по завершении сканирования. Нажатие на нее возобновляет запросы API (но не само сканирование), что позволяет синхронизировать данные API для уже просканированных URL.
Если вы измените конфигурацию GA4/GSC, перед закрытием окна конфигурации появится диалог, предлагающий удалить существующие данные и запросить новые. Ранее, если вы подключались к GA4/GSC, данные нельзя было удалить или перезапросить — теперь это возможно.
Теперь можно щелкнуть правой кнопкой мыши на любой URL и запросить данные для любого подключенного API (кроме GA4/GSC). Если для сканирования уже есть данные, они будут заменены новыми. Эти запросы имеют приоритет над другими в очереди, что позволяет данным отображаться в таблице практически сразу. Это работает как во время паузы, так и во время сканирования.

Другие обновления

Версия 22.0 также включает ряд небольших обновлений и исправлений ошибок:

Новый значок Save рядом с AI-промптами и пользовательскими jаvascript-сниппетами позволяет быстро сохранять их в библиотеку.
Все визуализации теперь можно открыть во внешнем браузере, что улучшает производительность при работе с большими объемами данных.
Комбинация клавиш Control + Shift + C открывает окно сравнения конфигураций, чтобы быстро выявить различия между текущей и стандартной конфигурацией.
API Moz обновлен до версии 3. Теперь доступны метрики, такие как склонность к ссылкам, спам-оценка и авторитетность бренда, наряду с DA, PA и количеством ссылок.
Через интеграцию с API Majestic теперь можно получать данные по темам Trust Flow.

Заключение

Это все для версии 22.0! Написав этот пост, мы поняли, что новых функций хватило бы на два релиза. Спасибо, что дочитали до конца! Благодарим всех за постоянную поддержку, запросы новых функций и отзывы.

Оригинал статьи на английском..

PS Скачать оригинальную версию можно на офф сайте, или в статье - Screaming Frog SEO Spider Tool + keygen/crack. Как будет crack к данной версии - он будет добавлен к оригинальному дистрибутиву.

Перейти на сайт (скачивать файлы можно только на сайте)