Блог Евгения Попова :: Программы :: DataLife Engine

Screaming Frog SEO Spider Update – Version 22.0 (перевод)

Мы рады объявить о выпуске версии 22.0 Screaming Frog SEO Spider, внутренне получившей кодовое название «knee-deep» (по колено). Этот релиз включает обновления, основанные на отзывах пользователей, а также захватывающие новые функции, построенные на основе возможностей, представленных в предыдущем релизе. Давайте разберем, что нового!



Основные обновления

1. Анализ семантической схожести

Теперь вы можете анализировать семантическую схожесть страниц в процессе сканирования, чтобы выявлять дублированный, похожий или потенциально нерелевантный контент на сайте.

Эта функция выходит за рамки традиционного обнаружения дублированного контента, основанного на текстовом совпадении, за счет использования эмбеддингов (векторных представлений) больших языковых моделей (LLM), которые фиксируют семантический смысл и взаимосвязь слов. Это позволяет выявлять страницы с разными формулировками, но пересекающимися темами, которые могут охватывать один и тот же предмет несколько раз, что может приводить к каннибализации или неэффективности при сканировании и индексации.

Если вы не знакомы с эмбеддингами, рекомендуем ознакомиться со статьей Майка Кинга «Vector Embeddings is All You Need» (Векторные эмбеддинги — это все, что вам нужно). Многие SEO-специалисты вдохновились этими концепциями и начали экспериментировать, создавая различные инструменты.

С помощью существующих интеграций с провайдерами искусственного интеллекта через меню Config > API Access > AI (включая OpenAI, Gemini и Ollama) вы можете собирать векторные эмбеддинги страниц.

Для активации анализа семантического контента, поиска и визуализаций включите использование эмбеддингов в меню Config > Content > Embeddings.

После завершения сканирования и выполнения анализа краулинга в вкладке Content появятся фильтры Semantically Similar (Семантически похожие) и Low Relevance Content (Нерелевантный контент). Подробности настройки эмбеддингов описаны в нашем руководстве пользователя.

Семантически похожие страницы
Вкладка Content и фильтр Semantically Similar показывают ближайший семантически похожий адрес для каждой страницы, а также оценку семантической схожести и количество семантически похожих URL.

В нижней вкладке Duplicate Details с фильтром Semantic Similarity отображаются все семантически похожие URL вместе с проанализированным контентом. Оценка семантической схожести варьируется от 0 до 1: чем выше оценка, тем выше схожесть с ближайшим семантически похожим адресом. По умолчанию страницы с оценкой выше 0.95 считаются семантически похожими, но порог можно настроить в Config > Content > Embeddings вплоть до 0.5.

Нерелевантный контент
Векторные эмбеддинги также позволяют выявлять страницы, которые потенциально отклоняются от общей тематики сайта, путем вычисления среднего эмбеддинга всех просканированных страниц (так называемого «центроида»). Измерение отклонения эмбеддингов страниц от среднего эмбеддинга сайта было упомянуто в утечке Google, и SEO-специалисты экспериментировали с этой концепцией для поиска аномалий. Аномалии — это страницы, наиболее удаленные от среднего значения, которые могут указывать на нерелевантный или менее тематически связанный контент. Такие страницы отображаются во вкладке Content под фильтром Low Relevance Content.

На нашем сайте эта функция выявила посты в блоге о факеле Олимпийских игр в Хенли, статью о возвращении к работе после декрета и страницу входа в систему как аномалии по сравнению с остальным контентом, ориентированным на техническое SEO. Хотя мы не собираемся удалять эти страницы, очевидно, что их содержание отклоняется от основной тематики сайта.

Ознакомьтесь с нашим полным руководством по выявлению семантически похожих страниц и аномалий.

Дополнительные применения анализа семантической схожести:

Мы с нетерпением ждем, как пользователи будут применять эту новую функциональность, что вдохновит нас на дальнейшее развитие инструмента.

2. Визуализация семантических кластеров контента

Диаграмма кластеров контента доступна через меню Visualisations > Content Cluster Diagram. Это двухмерная визуализация URL из вашего сканирования, размещенных и сгруппированных на основе данных эмбеддингов. Она помогает выявлять шаблоны и взаимосвязи в контенте сайта, где семантически похожий контент группируется вместе.

Пример диаграммы показывает семантические связи на сайте о животных. Интересно наблюдать, как семантика повторяет таксономию животных: популяции тигров плотно сгруппированы, ближайший сосед — гибрид лигра между тигром и львом, затем идут другие крупные кошки, такие как леопарды, ягуары и гепарды.

Диаграммы позволяют визуализировать масштаб кластеров контента на сайте или выявлять потенциальные тематические кластеры, которые семантически связаны, но могут быть плохо интегрированы для пользователей. Например, на сайте BBC можно легко увидеть масштаб различных разделов, таких как рецепты. Также можно заметить аномалии, изолированные от других узлов на краях диаграммы, такие как упомянутые ранее страницы на нашем сайте.

Через значок шестеренки можно настроить выборку, снижение размерности, кластеризацию и цветовые схемы. Диаграмма кластеров контента также работает с сегментами, позволяя визуализировать контент в определенной области или разделе сайта. Мы планируем дополнить эти диаграммы данными сканирования для получения дополнительных инсайтов.

3. Семантический поиск

Новая вкладка Semantic Search в правой части интерфейса позволяет вводить поисковый запрос и видеть наиболее релевантные страницы в сканировании. Эта функция векторизует поисковый запрос и вычисляет косинусное сходство между запросом и страницами в сканировании, используя векторные эмбеддинги вместо ключевых слов. Это позволяет количественно оценить релевантность контента для запроса для всех страниц в сканировании и больше соответствует тому, как современные поисковые системы и большие языковые модели возвращают контент, а не простому наличию и совпадению ключевых слов в тексте.

Эта функция может использоваться для поиска релевантных страниц для маппинга ключевых слов, связанных страниц для внутренней перелинковки или анализа конкурентов по ключевым словам. Фильтр Embedding Display можно настроить на режим Centroid, чтобы получить больше информации об аномалиях на сайте и о «наиболее представительной странице», ближайшей к среднему эмбеддингу всего сайта.

Если вы собрали эмбеддинги из разных языковых моделей, вы можете переключать фильтр вверху, чтобы просматривать различные результаты. Как и другие новые функции, очевидно, как эту возможность можно расширить в будущих обновлениях.

4. Улучшения интеграции с искусственным интеллектом

Мы внедрили ряд улучшений в интеграцию с искусственным интеллектом, чтобы сделать ее еще более продвинутой, гибкой и сократить расход кредитов и запросов. Ключевые улучшения включают:

5. Расширенный конфигуратор столбцов

Как и в случае с настройкой вкладок, теперь вы можете настраивать столбцы с помощью расширенного конфигуратора, который позволяет выбирать, скрывать и изменять порядок столбцов массово. Это делает настройку столбцов менее трудоемкой.

6. Пользовательский массовый экспорт

В меню Bulk Export появилась новая опция Multi Export, которая позволяет выбрать любую вкладку, массовый экспорт или отчет для экспорта одним кликом.

Если у вас есть набор часто используемых отчетов для сканирований или специфические экспорты для определенных сайтов, вы можете сохранить их как пресеты и использовать по необходимости как в интерфейсе, так и в планировщике или командной строке.

7. Экспорт в несколько вкладок в одном листе/книге

При массовом экспорте вручную или через планировщик вы теперь можете выбрать опцию «консолидировать таблицы». Вместо экспорта каждой вкладки, массового экспорта или отчета в отдельный файл, все будет экспортировано в отдельные вкладки в одной Google Sheet или книге Excel.

8. Загрузка нескольких XML-карт сайта

В режиме списка (List Mode) теперь можно загружать несколько XML-карт сайта вместо использования единого файла индекса карт сайта.

9. Загрузка из Google Sheets

В режиме списка вы можете выбрать Google Sheet в качестве источника. Все URL, указанные в Google Sheet, будут загружены и просканированы.

Вы можете ввести данные Google Drive, чтобы SEO Spider получил доступ к приватным Google Sheets. Эта функция открывает возможности для автоматизации, так как вы можете управлять списком URL для сканирования с помощью Google Sheets и связанных дополнений или скриптов. Эта возможность также доступна в планировщике и командной строке.

10. Получение данных API без сканирования или повторного сканирования

Новый режим APIs (Mode > APIs) позволяет загружать URL и получать данные из любых API без необходимости сканирования, что ускоряет процесс.

Дополнительные улучшения API включают:

Другие обновления

Версия 22.0 также включает ряд небольших обновлений и исправлений ошибок:

Заключение

Это все для версии 22.0! Написав этот пост, мы поняли, что новых функций хватило бы на два релиза. Спасибо, что дочитали до конца! Благодарим всех за постоянную поддержку, запросы новых функций и отзывы.

Оригинал статьи на английском..

PS Скачать оригинальную версию можно на офф сайте, или в статье - Screaming Frog SEO Spider Tool + keygen/crack. Как будет crack к данной версии - он будет добавлен к оригинальному дистрибутиву.

Перейти на сайт (скачивать файлы можно только на сайте)