En este artículo desarrollamos a niveles de detalles técnicos e ilustrativos los diferentes usos de la herramienta Screaming Frog. Así, podremos sacarle provecho para la optimización SEO de diferentes sitios web, mientras paralelamente analizamos competidores e implementamos mejoras que ayudarán a tomar ventaja en cualquier nicho o mercado digital.
Este artículo que escribimos desde nuestra agencia de marketing digital en Medellín, es basado en la actualización realizada (inglés) por Richie Lauridsen y Allison Hahn el 19 de febrero de 2020 a la publicación original del 11 de mayo de 2015. No solo es una traducción, es a su vez, un complemento pues le agregamos detalles técnicos, explicativos e ilustrativos que nos ayudarán a comprender y sacarle mayor provecho a Screaming Frog y a nuestras estrategias SEO.
Esperamos que a este manual que hemos desarrollado se le pueda sacar el mayor provecho, que se comparta y sea aplicado.
Antes de empezar, lo primero que debemos tener es la herramienta y tener claro para qué sirve. Para eso lo primero que debes hacer es descargar Screaming frog.
¿Qué es Screaming Frog?
Screaming Frog es una herramienta de rastreo y análisis de URLs que permite obtener información completa sobre cualquier sitio web, y la cual ofrece dos versiones de uso: uno gratuito para el crawleo de hasta 500 URLs; y el ilimitado para cantidades ilimitadas de URLs con un pago anual de £149 -Libras, unos $728.000 pesos colombianos o U$185 dólares. Es decir, que al facilitar monitorear todo un sitio web nos permite identificar el estado de salud del proyecto web.
¿Cómo instalar Screaming Frog?
Screaming Frog puede ser instalada directamente desde la sección de download del sitio oficial de Screaming Frog y allí seleccionar el sistema operativo con el cual estés trabajando en tu computadora.
La herramienta presenta disponibilidad para sistemas operativos como:
Una vez descargues el archivo en tu ordenador, deberás proceder con la instalación, la cual no es compleja de llevar a cabo.
1. Monitoreo del SEO on Page:
Screaming Frog permite los detalles técnicos de todas y cada una de las URLs de un sitio web en las SERPs:
URLs:
Muestra cada una de las URLs específicas alojadas en la web.
Title y meta description:
Indica cada uno de los titles y meta descriptions de los contenidos alojados en las URLs del sitio web. Muestra la extensión de estos textos en cantidad de caracteres y pixeles y el texto puntual para cada uno de estos dos snippets.
Encabezados:
Presenta los H1 y H2 asociados al contenido. Muestra hasta dos H1 y H2. Asimismo, muestra la extensión de cada uno en cantidad de caracteres y pixeles y el texto particular de cada uno de ellos.
Imágenes:
Presenta los cuatro puntos claves para optimizar una imagen de un portal web: el tamaño, la URL, el título y el peso.
2. Identificación de los status code:
La herramienta identifica los códigos de respuesta para cada una de las URLs asociadas al sitio web, independientemente de si están o no indexadas.
Status code 200:
Si la URL carga sin ningún tipo de inconveniente.
Status code 301:
Si la URL tiene asociada una redirección permanente.
Status code 302:
Si la URL tiene asociada una redirección temporal.
Status code 404:
Si la URL ya no existe o se ha cambiado de ubicación y por ende no aloja contenido.
Status code 5xx:
Problemas asociados a configuraciones, comúnmente de servidor.
Canonical:
URLs que permiten prevenir la duplicidad o canibalización de contenidos. A través de la “rel canonical” se le indica a Google que esa específica URL es la copia principal en contraste con otras páginas similares dentro del mismo sitio web.
Visibilización de la arquitectura de información:
Permite ver la estructura de la información en diversos formatos. Se puede visibilizar desde la raíz (home) y ver su ramificación de encarpetados, subdominios y enlazados, a su vez, también presenta la información a nivel gráfico, donde se pueden evidenciar los grandes nodos de confluencia de información y las palabras más usadas a nivel de anchor text.
Ejemplos de visualización de la arquitectura de un sitio web en Screaming Frog
Modelo crawl tree graph que brinda la herramienta:
Ejemplo de visualización de la web por nodos de enlazado o force-directed crawl diagram
Ejemplo de nube de palabras de la web por importancia de anchor text o inlink anchor text en Screaming Frog:
Los tres ejemplos de visualización fueron para la página web de nuestra agencia de marketing digital y SEO
4. Rendimiento de las URLs:
La araña de Screaming Frog permite integrarse con Google Analytics y Google Search Console, de tal forma que nos facilita monitorear y analizar el rendimiento de cada una de las URLs asociadas al tráfico, tiempo de permanencia, conversión y de más KPIs asociados a los contenidos de un sitio web. Asimismo, existen conexiones con otras herramientas como Ahrefs, Majestic o Moz, al igual que con el Page Speed Inside.
Este apartado se explicará más adelante a nivel de detalle.
Ahora bien, una vez comprendido qué es Screaming Frog, empezaremos con una explicación de los diferentes componentes de la herramienta:
Entendimiento de los espacios de la herramienta Screaming Frog
A continuación listamos cada una de los espacios que nos brinda Screaming Frog como herramienta:
Menú principal de la herramienta
Es aquel menú que encontramos en la parte superior de Screaming Frog. Encontramos opciones para:
- Abrir archivos.
- Configurar la araña desde los robots.txt, la velocidad de crawleo, la inclusión o exclusión de carpetas, subdominios o páginas de aterrizaje.
- El modo de crawleo, si es por araña a todo el sitio web, permite importación de URLs desde un archivo, rastreo de asignación manual para URLs o crawleo desde un sitemap XML.
- Exportación de archivos a niveles generales o detallados de segmentación de reportes.
- Configuración o generación de sitemaps a partir de crawleos específicos.
- Visualización de la arquitectura de información o de ubicación de URLs puntuales.
- Análisis internos comparativos entre lo crawleado y lo que se desea encontrar.
- Opción para validar la licencia de compra para la versión pro.
- Soporte mediante guías, preguntas frecuentes, soportes o revisión de actualizaciones.
El menú principal lo ubicas en el recuadro rojo:
Barra de crawleo de sitios web
Este es el corazón de la herramienta. Aquí se introduce la URL del sitio web que deseamos crawlear o rastrear.
Se puede modificar la forma de crawleo, ya sea por URL, importación de URLs e archivos .txt, .CSV, .xls y .xml. Para cambiar la forma de crawlear damos clic en el “Mode” del menú principal.
Menú del visualizador principal de la herramienta
Este nos permite empezar a filtrar por categorías dependiendo lo que estemos explorando en un sitio web. Lo ubicamos justo debajo de la barra de crawleo.
Es tan extenso que existen dos pequeños botones demasiado juntos y uno casi que tapa al otro. El más visible es para habilitar o deshabilitar opciones de categorías según nuestras necesidades. Basta con marcar o desmarcar:
Debajo de esta flecha desplegable con un pequeño botón que pasa desapercibido al que debemos prestarle atención, pues este nos permite ver todo el listado completo del Menú del visualizador principal y dar clic a la opción que queremos filtrar:
En este menú se encuentran las siguientes opciones:
- Internal: Para revisar el detalle interno de cada una de las URLs.
- External: Para revisar el detalle externo de cada una de las URLs.
- Protocol: Para filtrar por HTTP o HTTPS.
- Responses code: Para filtrar directamente por códigos de respuesta para las URL.
- URL: detalles técnicos de cada URL.
- Page Titles: Filtra por Title usado y su longitud en caracteres y pixeles.
- Metadescription: Filtra por meta description usada y su longitud en caracteres y pixeles.
- Meta Keywords: Filtra por Meta Keywords usadas y su longitud en caracteres y pixeles.
- H1: Filtra por H1 usados (hasta 2) y su longitud en caracteres y pixeles.
- H2: Filtra por H2 usados (también hasta un máximo de 2) y su longitud en caracteres y pixeles.
- Images: Filtra todos los datos asociados a las imágenes crawleadas: tamaño, title, ALT, enlazados, entre otros.
- Canonicals: Filtra las URLs canonicalizadas, sus ocurrencias y URL canonical.
- Pagination: Muestra si existe alguna URL con paginación particular.
- Directives: Filtra las URLs que tiene DoFollow, NoFollow, Index, No index, entre otros.
- Hreflang: Filtra las URLs que tienen asignadas etiquetas de georreferenciación estipuladas.
- AJAX: Filtra las URLs que tiene el atributo “Hash Fragment” o “Without Hash Fragment” marcado.
- AMP: URLs que han sido optimizadas de alguna manera con el código promovido por Google: Accelerated Mobile Pages.
- Structured Data: Filtra las URLs con datos estructurados.
- Sitemaps: Filtra las URLs que están al interior del sitemap, por fuera del sitemap, están huérfanas e incluso que pertenecen a múltiples sitemaps.
- PageSpeed: Filtra por las diferentes opciones de maximización de velocidad para las URLs.
- Custom Search: Filtra por opciones configuradas manualmente de búsqueda, es decir, que no están configuradas de manera predeterminada en la herramienta.
- Custom Extraction: Filtra por opciones configuradas manualmente de extracción, es decir, que no están configuradas de manera predeterminada en la herramienta.
- Analytics: Filtra por los datos extraídos de Google Analytics para cada una de las URLs como porcentaje de rebote, número de sesiones, tasas de conversión, páginas huérfanas, entre otras. Debe configurarse previamente desde la API.
- Search Console: Filtra por los datos extraídos de Google Search Console para cada una de las URLs como porcentaje de rebote, número de sesiones, tasas de conversión, páginas huérfanas, entre otras. Debe configurarse previamente desde la API.
- Link Metrics: Filtra por opciones configuradas manualmente de agentes de usuario, es decir, que se deben configurar previo al crawleo como Bing Bot, Yahoo Bot, Google Bot, entre otros.
Visualizador principal de la herramienta
Este nos permite visualizar a niveles de detalle cada una de las URLs rastreadas de un sitio web. Solo funciona una vez se crawlea un sitio web:
Categorías o columnas del Visualizador principal de la herramienta
Aquí ya empezamos a revisar el detalle técnico de los rastreado. Cada opción del Menú del visualizador principal tiene a su vez asignadas unas categorías o columnas que muestran el detalle técnico de las URLs.
Como se observa en la imagen, hay un scroll lateral que permite movilizarse alrededor de las categorías o columnas. ¿Qué tipo de información contienen las categorías? Pues tenemos que adentrarnos en el artículo para conocer la magia al interior de esta herramienta.
Filtro de tipología de contenido
Este filtro permite filtrar por tipo de contenido cada una de las opciones del menú principal de la herramienta. El filtro lo hace efectivo en el Visualizador principal de la herramienta:
Por ejemplo, para este caso, se filtra por “HTML” (contenido que consume el usuario) y se visualizan 60 URLs, diferente al filtro anterior “All” que muestra 350 URLs:
Las URLs identificadas como HTML son aquellas URLs con las que debemos trabajar para impulsar las estrategias SEO de nuestro sitio web.
Aquí encontramos un breve resumen que funciona a su vez, de índice para encontrar cierta información del crawleo filtrado por las opciones del menú del visualizador principal.
Este nos muestra cantidad de URLs asociadas a cada opción del menú del visualizador principal y el respectivo porcentaje de cada una de las categorías o columnas asociadas a las opciones del menú.
Al darle clic a cada ítem del índice, este actualiza el filtro de tipología de contenido:
Recuadro de porcentajes del menú del visualizador principal de la herramienta
Aquí encontramos un breve resumen a nivel de porcentajes de repartición que tienen cada una de los filtros de tipología de contenidos de las opciones del menú de visualizador principal:
De esta manera sabemos que tipos de URLs son las más o menos sobresalientes de cara a lo que estamos filtrando.
Menú del visualizador inferior de la herramienta
Este menú nos permite hacerle una especie de doble clic al detalle técnico de cada URL
Aquí se pueden ver:
- URL details: los detalles técnicos de cada URL.
- Inlinks: Los enlazados internos de cada URL.
- Outlinks: Los enlazados externos de cada URL
- Image Details: Dónde está ubicada la imagen, enlace de la imagen y atributo ALT de la imagen.
- Resource: Si la URL utiliza algún tipo de plugin, JavaScript u otro tipo de componente.
- SERP snippet: Visualiza el detalle de los snippets en la SERP y muestra su longitud en caracteres y pixeles.
- Rendered Page: Muestra los porcentajes de renderizado para los JavaScript.
- View Source: Visualiza el código fuente, pero debe configurarse la araña previamente.
- Structured Data Details: Visualiza el detalle de los datos estructurados, dado el caso que tenga alguno implementado.
- PageSpeed Details: Visualiza el detalle de las optimizaciones de velocidad de las URLs, dado el caso que estén configuradas de alguna manera.
Visualizador inferior de la herramienta
Este visualizador muestra el detalle de cada URL dependiendo la opción del menú inferior que tengamos activo:
Opciones de exportación
Existen múltiples formas de exportar. Se debe tener en cuenta cuál se usa, ya que dependiendo de esto la herramienta exporta mayor o menor cantidad de datos:
Opciones de exportación del menú principal:
Botón exportar del visualizador principal:
Botón exportar del visualizador inferior:
Al hacer clic derecho en cualquier URL del visualizador principal de los resultados podremos encontrar variada oportunidad acciones o esculcar cierto tipo de información.
- Copiar la URL.
- Abrir la URL en el navegador.
- Volver a rastrear únicamente esta URL o eliminar del crawleo actual.
- Exportar la información de la URL: enlazados internos, enlazados externos o información general de la página web.
- Comprobar la indexación en motores de búsqueda como Google, Bing y Yahoo!
- Revisar los enlaces de la página en Majestic, OSE, Ahrefs y Blekko.
- Mirar la versión en caché / fecha de caché de la página.
- Ver versiones anteriores de la página.
- Validar el HTML de la página.
- Abrir robots.txt para el dominio donde se encuentra la página.
- Buscar otros dominios en la misma IP.
En la siguiente imagen lo mostramos de manera más gráfica:
De la misma manera, en la ventana inferior, con un clic derecho, podemos
- Copiar la URL
- Abrir la URL en un navegador
- Abrir la URL a donde está enlazada en un navegador
Ahora ya entendiendo el funcionamiento de Screaming Frog, aquí está el índice del contenido para la optimización de la estrategia SEO.
Índice de estructura del post de optimización de estrategia SEO con Screaming Frog
Toda la información de Crawleo de un sitio web
¿Qué es crawlear un sitio web?
Configuración básica de Screaming Frog
Crawlear todo nuestro sitio web
Cómo crawlear un solo subdirectorio
Cómo crawlear un conjunto específico de subdominios o subdirectorios
Reglas de exclusión de parámetros
Reglas de inclusión de parámetros
Generar únicamente lista de páginas con contenido del sitio web
Encontrar todos los subdominios de un sitio web
Método 1 para encontrar subdominios de un sitio web: solo Screaming Frog
Método 2 para encontrar subdominios de un sitio web: Footprints y Screaming Frog
Cómo crawlear un e-commerce o sitio grande
Crawlear un sitio alojado en un servidor antiguo o rastrear una página sin bloquear el servidor
Crawlear usando un agente de usuario diferente
Rastrear las páginas que requieren autenticación
Crawleo de enlaces internos de un sitio web
Información sobre todos los enlaces internos y externos de un sitio web
Cómo encontrar enlaces internos rotos en una página o sitio
Cómo encontrar enlaces salientes rotos en una página o sitio (o todos los enlaces salientes en general)
Cómo encontrar los enlaces que están siendo redirigidos en un sitio web
Crawleo de contenido de un sitio web
Cómo identificar las páginas con poco contenido
Crawlear una lista de los enlaces de imágenes de un sitio web
Cómo encontrar imágenes a las que les falta el texto alternativo o imágenes que tienen un texto alternativo muy largo
Cómo encontrar todos los archivos CSS y JavaScript de un sitio web con Screaming Frog
Cómo identificar todos los plugins de jQuery usados en el sitio y en qué páginas se están usando
Cómo encontrar dónde está embebido contenido flash en el sitio web
Cómo encontrar cualquier PDF que esté enlazado en el sitio web
Cómo encontrar páginas que estén usando iframes en un sitio web
Cómo encontrar páginas que contengan contenido de video o audio embebido – incrustado
Crawleo de MetaData y Directivas
Cómo identificar páginas con títulos largos o cortos, y lo mismo con meta descripciones y URLs
Cómo encontrar títulos de páginas, meta descripciones o URLs duplicadas
Cómo encontrar contenido duplicado y/o URLs que necesitan ser reescritas, redireccionadas o canonicalizadoas.
Cómo identificar todas las páginas que incluyen meta directivas: nofollow, noindex, noodp, canonical, entre otras
Cómo verificar que el archivo robots.txt funciona correctamente
Cómo encontrar o verificar los datos estructurados u otros microdatos en una página web
Crawleo de Sitemap
Cómo crear un sitemap XML a partir de un sitio web crawleado
Creación de un sitemap XML mediante la carga de URLs
Quiero comprobar un sitemap XML existente
Comprobar URLs perdidas dentro de un sitemap XML.
Solución de problemas generales de un sitio web
Cómo identificar por qué ciertas secciones de un sitio no están siendo indexadas o clasificadas
Identificar páginas huérfanas dentro de un sitio web con Google Analytics
Identificar páginas huérfanas dentro de un sitio web con Google Search Console
Cómo encontrar páginas de carga lenta en un sitio web
Reescritura de URLs para un sitio web
Cómo encontrar y eliminar la identificación de la sesión y otros parámetros de URLs rastreadas
Cómo reescribir las URLs rastreadas (por ejemplo: reemplazar .com por .com.co, o escribir todas las URLs en minúsculas)
Investigación de palabras clave con Screaming Frog
Cómo saber qué páginas valoran más mis competidores
Cómo conocer los anchor text que usa la competencia para los enlaces internos
Cómo conocer las keywords o palabras clave que usa la competencia de un sitio web
Investigación y gestión de link building para un sitio web propio o de un competidor
Cómo analizar una lista de URLs y sus tipos de enlace
Cómo encontrar enlaces rotos de un sitio web para poder solucionarlos o reclamarlos
Cómo hacer una nube de palabras con las más usadas en anchor text y textos de contenido de un sitio web
Arquitectura de información, visualización de encarpetados y enlazados de un sitio web
Cómo encontrar de manera visual el mapa de enlazados de un sitio web
Toda la información de Crawleo de un sitio web con Screaming Frog
A continuación presentamos de manera detallada todo lo pertinente al uso de la herramienta para el caso puntual de crawleo:
¿Qué es crawlear un sitio web?
Cuando decimos que una herramienta como Screaming Frog “crawlea”, hablamos de que ejecuta diversos procesos para rastrear, recopilar y entregar datos sobre esas URLs asociadas a un dominio. ¿Cómo ocurre el crawleo? A través de “arañas” o bots que visitan el sitio web específico para luego compilar toda la información asociada a este.
Esto es importante porque nos permite saber con exactitud la cantidad de URLs asociadas a la página web, e incluso, filtrarlas por HTML, es decir, únicamente las asociadas a contenido, dejando a un lado todos los componentes de CSS, JavaScripts, PDF’s, entre otros formatos. Claro está, se puede filtrar por los diferentes formatos dependiendo las instancias que se deseen analizar para luego implementar las respectivas mejoras.
Configuración básica de la herramienta Screaming Frog
El punto clave aquí es iniciar el crawleo teniendo claro qué tipo de información se pretende obtener:
- Realizar una auditoría on page.
- Obtener muestra representativa de datos.
- Revisar las imágenes.
Cuando el sitio web es muy grande, es recomendable restringir el rastreador a una subsección de URL para obtener una buena recolección de información. Esto hace que la cantidad de datos sean más manejables a la hora de exportar los archivos.
A continuación, expondremos esto con más detalle:
- Para rastrear todo el website, incluidos todos los subdominios, debemos realizar algunos ajustes rápidos en la configuración previos a la araña que se enviará.
- Screaming Frog viene configurado de manera predeterminada; solo rastrea el subdominio/dominio que entramos. En este caso, cualquier subdominio adicional que la araña encuentre será visto como un enlace externo.
- Para poder rastrear subdominios adicionales, debes cambiar la configuración en el menú Configuración de la araña. Al marcar la casilla “Crawl All Subdomains”, se asegurará de que la araña rastree todos los enlaces que encuentre hacia otros subdominios de tu sitio.
Ahora, si estamos empezando a crawlear desde una subcarpeta o subdirectorio específico y queremos que Screaming Frog rastree todo el sitio, marquemos la casilla “Crawl Outside of Start Folder”.
Recomendación: Para ahorrar tiempo y espacio en el disco, ten en cuenta los recursos que no necesitas en tu rastreo. Los sitios web enlazan con mucho más que sólo páginas. Desmarca los recursos de imágenes (si no las vas a analizar, recomendamos dejarlas pues son clave fundamental para el SEO y el WPO), CSS, JavaScript y SWF para reducir el tamaño del rastreo.
¿Cómo crawlear un solo subdirectorio con Screaming Frog?
Si deseamos limitar nuestro rastreo a una sola carpeta, simplemente introducimos la URL y cliqueamos el botón de inicio sin cambiar ninguna de las configuraciones predeterminadas. Si se ha modificado la configuración original (como se planteó en el punto anterior)y queremos que sea temporal, necesitamos restablecer la configuración predeterminada en el menú “File”, “Configuration” y “Clear Default Configuration”.
Para realizar el rastreo en una carpeta específica, pero queremos seguir rastreando el resto del subdominio, asegurémonos de seleccionar “Crawl Outside Of Start Folder” en la configuración de la araña antes de introducir tu URL.
¿Cómo crawlear un conjunto específico de subdominios o subdirectorios en Screaming Frog?
A la hora de limitar nuestro rastreo a un conjunto específico de subdominios o subdirectorios, podemos utilizar RegEx (Regular Expresions) para establecer esas reglas en los parámetros “Include” o “Exclude” del menú Configuración.
Reglas de exclusión de parámetros en Screaming Frog:
En este ejemplo, rastreamos todas las páginas de www.loscreativos.co, excluyendo las páginas “Equipo” de cada subdominio.
Vamos a Configuración > “Exclude”;
Utilizamos una expresión regular con comodín para identificar las URLs de los parámetros que deseamos excluir. La herramienta nos da el ejemplo:
http://www.example.com/exclude-folder/.*
Debemos probar la expresión regular para asegurarnos previo al rastro que las páginas verdaderamente se están excluyendo.
Reglas de inclusión de parámetros en Screaming Frog:
Planteemos el ejemplo de querer rastrear la subcarpeta del equipo en www.loscreativos.co. Nuevamente, vamos a Configuración, esta vez > “Include”; utilizamos la pestaña “Test” para probar algunas URL y nos aseguramos que el RegEx está configurado apropiadamente para la regla de inclusión.
Luego, se agregamos la URL específica de la carpeta y le damos clic en “Start”. Como se ve en la imagen, solo crawlea la carpeta específica:
Esta es una excelente manera de rastrear sitios más grandes de manera sectorizada; de hecho, Screaming Frog recomienda este método si necesita dividir y optimizar un rastreo para un dominio más grande.
Generar únicamente lista de páginas con contenido del sitio web usando Screaming Frog
En la introducción a este post indicamos cómo filtrar HTML de todas las URLs crawleadas, pero cuando un sitio web es muy grande, es necesario que antes de crawlear el sitio se filtre para que solo nos arroje resultados de contenido.
Por defecto, Screaming Frog está configurada para rastrear absolutamente todas las URLs asociadas al website: imágenes, JavaScript, CSS, HTML, PDFs y archivos flash que la araña encuentre.
Para rastrear sólo HTML, debemos deseleccionar cada uno de los ítems “Check Images”, “Check CSS”, “Check JavaScript” y “Check SWF” en el menú de configuración de la araña. En nuestro caso, pero eso dependerá del objetivo del crawleo, siempre rastreamos imágenes también.
Vamos a Configuration > Spider
Desmarcamos CSS, JavaScript y SWF, para que el rastreo sea mucho más rápido y nos arroje únicamente contenido.
Así es cómo deberías hacerlo:
Al ejecutar la araña con estos ajustes sin marcar nos proporcionará, en efecto, una lista de todas las páginas (e imágenes en este caso) de nuestro sitio.
Una vez finalizado el rastreo, vamos a la pestaña “Internal” y filtramos los resultados por “HTML”.
Hagamos clic en “Export” y tendremos la lista completa para descargar en formatos CSV y .XLS.
Si tendemos a usar la misma configuración para cada crawl, Screaming Frog nos permite guardar su configuración.
File > Configuration > Save Current Configuration as Default.
Encontrar todos los subdominios de un sitio web con Screaming Frog
Hay diferentes maneras de encontrar todos los subdominios de un sitio.
Método 1 para encontrar subdominios de un sitio web: Solo con Screaming Frog
Usemos Screaming Frog para identificar todos los subdominios de un sitio determinado. Vamos a Configuration > Spider, y asegurémonos que “Crawl all Subdomains” esté seleccionado, pues por defecto está desmarcado:
Al igual que el rastreo de todo nuestro sitio web, esto ayudará a rastrear cualquier subdominio al que esté vinculado dentro del rastreo del sitio. Sin embargo, no encontrará subdominios que sean huérfanos o que no estén vinculados, sino marcamos las siguientes opciones también:
Método 2 para encontrar subdominios de un sitio web: Footprints y Screaming Frog
En este método es necesario que usemos Google para identificar todos los subdominios indexados.
Utilizando un marcador que les dejaremos en este post y algunos footprints de búsqueda avanzada podemos encontrar todos los subdominios indexables de un dominio determinado.
Usemos footprints como site: y -inurl. El primero restringe los resultados a nuestro dominio específico, el segundo restringe los resultados de búsqueda eliminando el dominio principal.
Vamos a poner el caso de la Universidad Tecnológica de Bolívar:
Si nos damos cuenta empezamos a ver una lista de subdominios que se han indexado en Google y que no contienen el dominio principal.
Ahora debemos utilizar el siguiente marcador:
SERP CSV
Para que nos funcione, debemos seleccionarlo y arrastrarlo a la barra de marcadores:
Pendiente de pantallazo una vez se monte el post
Una vez lo tengamos, solo es pararnos en la pestaña donde tenemos la búsqueda y darle al marcador
Al darle clic, exporta de manera inmediata a un archivo de Excel .CSV
Lo guardamos y seguimos con el siguiente punto.
Aquí, debemos volver a Screaming Frog y cambiar el modo de rastreo que tiene la herramienta, pues por defecto está en Spider.
Debemos darle clic en List y automáticamente nos cambia el buscador
Se puede usar de dos formas:
- Subir el archivo desde From a File
Para esto, debemos configurar brevemente el archivo que recién descargamos, eliminando títulos y filas que no sean URLs
Subimos el archivo:
- Entrar manualmente
Cómo crawlear un e-commerce o sitios grandes con Screaming Frog
Screaming Frog no fue construido originalmente para rastrear cientos de miles de páginas, pero gracias a algunas mejoras, se acerca cada día más.
En la versión 12.6, el crawler guarda automáticamente los rastreos en la base de datos.
¡No entres en pánico cuando no veas el comando de Abrir!
Esto permite acceder a ellos y abrirlos usando “File > Crawl Recent” en el menú de nivel superior.
Aunque el uso de rastreos en la base de datos ayuda a Screaming Frog a manejar mejor los rastreos más grandes, ciertamente no es la única manera de rastrear un sitio grande.
- Primero, podemos aumentar la asignación de memoria de la araña, pasando de cuenta free a premium.
- Segundo, podemos desglosar el rastreo por subdirectorios o rastrear sólo ciertas partes del sitio utilizando la configuración de Include/Exclude. Así como se mencionó en ítems anteriores.
- Tercero, podemos elegir no rastrear imágenes, JavaScript, CSS y flash. Al desmarcar estas opciones en el menú de Configuración, ahorrando memoria rastreando sólo HTML. También se explica en el punto anterior.
Adicional, hasta hace poco, la araña SEO de Screaming Frog podría haber hecho una pausa o haberse bloqueado al rastrear un sitio grande, es normal que pase cualquier aplicativo tecnológico.
, con las últimas actualizaciones, el almacenamiento de la base de datos como configuración predeterminada, recupera las URL´s que no alcanzó a visibilizar en la herramienta:
Aquí, ponemos el ejemplo de pausar el crawleo de LosCreativos.Co en el 25%, alcanzando un rastreo de 39 URL´s, al ir a ejecutar en el menú Bulk Export > Queued URLs.
Se podrá descargar el restante:
Para este caso, nos descar 139 URLs adicionales a las 39 ya crawleads en la herramienta.
Crawlear un sitio alojado en un servidor antiguo o rastrear una página sin bloquear el servidor con Screaming Frog
En algunos casos, es posible que los servidores más antiguos no puedan manejar el número predeterminado de solicitudes de URL por segundo. De hecho, recomendamos incluir un límite en el número de URLs a rastrear por segundo para ser cuidadosos con el servidor de un sitio, por si acaso.
Es mejor informar a un cliente cuando se planea rastrear un sitio web, es posible que tengan protecciones contra los agentes de usuario desconocidos. De ser así, puede que necesitemos hacer una lista blanca de la IP o Agente de Usuario antes de que rastree el sitio. En el peor de los casos, puede ser que envíe demasiadas solicitudes al servidor y que bloquee el sitio inadvertidamente.
Para cambiar la velocidad de rastreo, cambiemos “Velocidad” en el menú de configuración y, en la ventana emergente, seleccionamos el número máximo de hilos que deben ejecutarse simultáneamente. En este menú, también se puede elegir el número máximo de URLs solicitadas por segundo.
Configuration > Speed
Cuidado a lo siguiente:
Si nos encontramos con que el rastreo está resultando con muchos errores del servidor (status code 5xx), debemos ir a la pestaña “Advanced” en el menú de Configuración de la Araña, y aumentamos el valor del “Response Timeout” y de los “5xx Response Retries” para obtener mejores resultados.
Configuration > Spider > Advanced
Aunque los robots de búsqueda no aceptan cookies, si estamos rastreando un sitio y necesitamos permitir las cookies, simplemente seleccionamos “Allow Cookies” en la pestaña “Advanced” del menú de configuración de la araña.
Configuration > Spider > Advanced
Crawlear usando un agente de usuario diferente con Screaming Frog
Para rastrear usando un agente de usuario diferente, seleccionemos “User Agent” en el menú “Configuration”, luego selecciona un robot de búsqueda en el menú desplegable o escriba las cadenas del agente de usuario que desees.
Configuration > User Agent
Dado que con el First Index, ahora Google prioriza los dispositivos móviles, intentemos rastrear el sitio como Google Bot Smartphone, o modificar el User-Agent para que sea una imitación de Googlebot Smartphone.
Esto es importante básicamente porque al rastrear el sitio imitando el agente de usuario de Google Bot para Smartphones puede ayudar a determinar cualquier problema que tenga Google al rastrear y mostrar el contenido de nuestro sitio web.
Rastrear páginas que requieren autentificación con Screaming Frog
Cuando la araña de Screaming Frog se encuentra con una página protegida por contraseña, aparece un cuadro emergente en el que puedes introducir el nombre de usuario y la contraseña.
La autenticación basada en formularios es una característica muy poderosa y puede requerir la representación de JavaScript para funcionar eficazmente.
La autenticación basada en formularios debe ser utilizada con moderación, y sólo por usuarios avanzados. El rastreador está programado para hacer clic en cada enlace de una página, por lo que podría resultar en enlaces para cerrar la sesión, crear mensajes, o incluso eliminar datos.
Para administrar la autenticación, ingresamos en Configuration > Authentication.
Para desactivar las solicitudes de autenticación, desmarcamos “Standards Based Authentication” en la ventana “Authentication” del menú de Configuración.
Crawleo de enlaces internos de un sitio web usando la herramienta Screaming Frog
En este apartado encontraremos toda la información sobre todos los enlaces internos y externos de nuestro sitio web (Anchor text, texto de anclaje, enlaces por página, enlaces rotos, entre otros).
Información sobre todos los enlaces internos y externos de un sitio web
Si no necesitamos comprobar las imágenes, JavaScript, flash o CSS del sitio, desmarcamos estas opciones en el menú de Configuración de la araña para ahorrar tiempo de procesamiento y memoria. (Ver configuración de Screaming Frog).
Una vez que la araña haya terminado el crawleo, usemos el menú de “Bulk Export” para exportar un CSV de “All Links”. Esto le proporcionará todas las ubicaciones de los enlaces, así como el correspondiente a los anchor text y de más.
Para un sitio grande, esta exportación a veces puede tardar minutos en ejecutarse.
Para un recuento rápido del número de enlaces en cada página, vaya a la pestaña “Internal” y ordene por “Outlinks”.
Empiece a revisar los outlinks de mayor a menor, puede que en algunos contenidos exageremos en outlinks y saquemos sin necesidad a nuestros usuarios del portal.
Cómo encontrar enlaces internos rotos en una página o sitio web con Screaming Frog
Si no necesitamos comprobar JavaScript, flash o CSS del sitio, desmarcamos estas opciones en el menú de Configuración de la araña para ahorrar tiempo de procesamiento y memoria. (Ver configuración de Screaming Frog).
Una vez que la araña haya terminado de crawlear, ordena los resultados de la pestaña “Internal” por “Status Code”. Cualquier 404, 301 u otro código de estado estará fácilmente visible.
Al hacer clic en cualquier URL individual de los resultados del rastreo, veremos que la información cambia en la ventana inferior del programa.
Al hacer clic en la pestaña “In Links” de la ventana inferior, encontraremos una lista de páginas que se enlazan con el URL seleccionada, así como el texto de anclaje y las directivas utilizadas en estos enlaces. Puedes utilizar esta función para identificar las páginas en las que es necesario actualizar los enlaces internos.
Para exportar la lista segmentada y filtrada con datos específicos de la URL para enlaces rotos o redirigidos, usemos el menú “Bulk Export”.
Nos desplazamos hacia abajo hasta los códigos de respuesta, y miramos las siguientes opciones de informes:
- No Response Inlinks
- Redirection (3xx) Inlinks
- Redirection (JavaScript) Inlinks
- Redirection (Meta Refresh) Inlinks
- Client Error (4xx) Inlinks
- Server Error (5xx) Inlinks
Cómo encontrar enlaces salientes rotos en una página o sitio (o todos los enlaces salientes en general) con Screaming Frog
Si no necesitamos comprobar las imágenes, JavaScript, flash o CSS del sitio, desmarcamos estas opciones en el menú de Configuración de la araña para ahorrar tiempo de procesamiento y memoria. (Ver configuración de Screaming Frog).
Una vez que la araña termine de rastrear, hacemos clic en la pestaña “External” en la ventana superior, ordenamos por “Status Code” y podremos encontrar fácilmente URL´s con códigos de estado distintos a 200.
Al hacer clic en cualquier URL individual de los resultados del rastreo y luego en la pestaña “In Links” de la ventana inferior, encontraremos una lista de páginas que apuntan a la URL seleccionada. Podemos utilizar esta función para identificar las páginas en las que es necesario actualizar los enlaces salientes.
Para exportar la lista completa de enlaces salientes, hacemos clic en “External Links” en la pestaña “Bulk Export”.
Ahora bien, para obtener una lista completa de todas las ubicaciones y el anchor text de los enlaces salientes, seleccionamos “All Outlinks” en el menú “Bulk Export”.
Podemos incluir en el informe todos los enlaces salientes de nuestros subdominios o excluir una página particular en un apartado anterior: Ver Cómo crawlear un conjunto específico de subdominios o subdirectorios en Screaming Frog.
Cómo encontrar los enlaces que están siendo redirigidos en un sitio web
Cuando la araña termine de rastrear, seleccionamos la pestaña “Response Codes” de la interfaz principal y filtramos por “Status Code”.
Debido a que Screaming Frog utiliza ReGex -Expresiones Regulares- para la búsqueda, envía los siguientes criterios como filtro: 404/301|302|307.
Ya sabemos que para este caso solo nos debe interesar los 301, 302 y 307, puesto que son los enlaces que regresaron con algún tipo de redireccionamiento, ya sea que el contenido se haya movido, encontrado y redirigido permanentemente, o se haya redirigido temporalmente debido a la configuración de HSTS (esta es la causa probable de los 307 redireccionamientos en Screaming Frog).
Ordenemos entonces por “Status Code” y podremos filtrar los resultados por tipo.
Damos clic en URL y luego en la pestaña “Inlinks” de la ventana inferior para ver todas las páginas en las que se utiliza el enlace de redireccionamiento.
Si exportamos directamente desde esta pestaña, sólo veremos los datos que se muestran en la ventana superior (la URL original, el código de estado y el lugar al que se redirecciona).
Cuidado que hay diversas formas de exportar datos y cada uno muestra datos distintos:
1. Desde la parte superior descarga las URL´s filtradas del visualizador principal y las cuales responden a la información general del contenido.
2. Desde la parte inferior descarga los datos del visualizador de URL´s inferior y muestra La URL de origen y la URL final de la redirección.
3. Desde del Menú principal de Reports da la opción de diferentes descargas por filtro:
Esta trae la información más completa y, por lo general, luego toca filtrar nuevamente. Es cuestión de saber qué datos se necesitan.
- Finalmente. para exportar la lista completa de páginas que incluyen enlaces de redirección o lo que queramos, tendremos ir al menú principal, “Bulk Export” elegir y dar clir. Esto devolverá un CSV que incluye la ubicación de todos los enlaces redirigidos con su respectivo código de respuesta.
Las diferencias entre las descargas son sutiles, pero responden diversas necesidades. Es cuestión de práctica y tener objetivos claros.
Crawleo de contenido de un sitio web con Screaming Frog
Cómo identificar las páginas con poco contenido
Después de que la araña haya terminado de rastrear, vamos a la pestaña “Internal” y filtramos por HMTL.
Luego nos desplazamos a la derecha hacia la columna “Word Count”. Ordenamos la columna de de bajo a alto y encontraremos las páginas con más bajo contenido de texto.
Podemos arrastrar y soltar la columna “Word Count” a la izquierda para visualizar mejor los valores de acuerdo a la vista de la URL a analizar, pues esta columna está por defecto tirada muy hacia la derecha.
Para descargar en CSV, damos clic en “Export” del visualizador principal de la pestaña “Internal”.
Aunque el método de recuento de palabras que hemos mencionado cuantifica la cantidad de texto real de la página de aterrizaje, todavía no hay forma de saber si el texto encontrado es sólo el nombre de los productos o si el texto está en un bloque de copia optimizado por palabras clave en texto narrativo, por lo que es preciso entrar a analizar con otras herramientas..
Crawlear una lista de los enlaces de imágenes de un sitio web con Screaming Frog
Si ya hemos rastreado todo un sitio o una subcarpeta, para lo que más arriba del post hemos explicado a nivel de detalle, sólo tenemos que seleccionar la opción en el menú del visualizador superior y luego hacer clic en la pestaña “Images”
Nota: Recordemos que, si en la configuración de la herramienta desmarcamos “images”, la araña no rastreará este ítem de imágenes.
Luego, al darle clic a cada URL, en la ventana inferior se podrá visualizar los enlaces hacia donde redirecciona cada una.
Si tenemos alguna duda con una imagen, pues no recordamos por su título o URL, podemos darle clic derecho y abrir en el navegador.
Cómo encontrar imágenes a las que les falta el texto alternativo o imágenes que tienen un texto alternativo muy largo
Recordemos que debemos asegurarnos que “Check Images” esté seleccionado en el menú de configuración de rastreo de la araña. Una vez que la araña haya terminado de rastrear, vamosa la pestaña “Images”’ y filtramos por “Missing Alt Text” o “Alt Text Over 100 Characters”, dependiendo lo que queramos revisar, sea por ausencia de textos alternativos o por el exceso de texto en ellos…
Podemos encontrar las páginas dónde se encuentra las imágenes haciendo clic en la pestaña “Imagen Details” en la ventana inferior. Las páginas donde se alojan aparecerán en la columna “From”.
Finalmente, si preferimos trabajar directamente sobre un CSV, usamos el menú “Bulk Export” para exportar “All Images” para ver la lista completa de imágenes o “Images Missing Alt Text Inlinks”, para revisar las imágenes faltantes por texto alternativo o problemas asociados con el texto alternativo. Allí nos descargar los datos de dónde se encuentran y si enlazan, a dónde enlazan.
Además, utiliza la barra lateral derecha para navegar a la sección de las imágenes del rastreo; aquí podemos encontrar resumen de porcentajes de manera rápida.
Cómo encontrar todos los archivos CSS y JavaScript de un sitio web con Screaming Frog
Lo primero, es que debemos seleccionar en el menú de configuración de la araña “Crawl” y “Store” para el campo “CSS” y “JavaScript”.
Configuration > Spider
Crawleamos el sitio completo y filtramos por el menú del visualizador principal por “Internal”. Allí filtramos por CSS o JavaScript según sea el caso.
Cómo identificar todos los plugins de jQuery usados en el sitio y en qué páginas se están usando con Screaming Frog
Tal y como lo mencionamos en el punto inmediatamente anterior, es necesario cerciorarnos que “Check JavaScript” esté seleccionado en el menú de configuración de la araña.
Una vez la araña haya terminado de rastrear, filtramos la pestaña “Internal” por “JavaScript”.
Luego buscamos en la columna “Address”.
Esto proporcionará una lista de archivos de plugins. Posteriormente, miramos en ‘InLinks’ del menú inferior para visualizar en esta ventana las URL´s donde se usan los archivos, esta información están ubicadas en la columna “From”.
Recordemos que también se puede descargar en CSV para trabajar el archivo en el escritorio. Para este caso es recomendable descargar cuando se trata de un sitio web grande. Este ejemplo que mostraremos se hizo con la página de la Alcaldía de Medellín con un 45% del total de la página rastreada:
Descargamos en el menú principal “Bulk Export” y “All links”
Bull Export > All Links
Luego abrimos el CSV:
Nos damos cuenta que son 234.570 filas:
Damos en el teclado CTRL + B, ingresamos “jQuery”
Nos encuentra el inicio de las Jquery:
Pero también podemos:
1.Señalar toda la columna:
2. Agregar filtro:
3. Desmarcar todas las casillas:
4. Buscar jQuery y marcar todos los resultados:
Y para este caso, filtra 28.371 resultados de los 234.570 URL´s crawleadas, un poco más del 20% del total. Todo en menos de 5 minutos.
Tengamos en cuenta que no todos los plugins de jQuery son malos para el SEO. Si vemos que un sitio web utiliza jQuery, la mejor práctica es asegurarse que el contenido que se indexe se incluya en la fuente de la página y sirva cuando se cargue la página, no después. Si aún no estamos seguros, busquemos el plugin en Google para ampliar la información sobre su funcionamiento.
Cómo encontrar dónde está embebido contenido flash en un sitio web con Screaming Frog
Aunque ya sabemos que Flash no es soportado por ningún navegador y, Adobe hace mucho rato no le da soporte, siguen existiendo portales que usan esta tecnología para exponer su contenido multimedia. Si nos topamos con una de estas páginas o por el contrario queremos revisar que nuestros sitio web no tenga este tipo de archivos, es posible rastrearlos. Este punto que mostramos es realmente algo que debe ser usado para resaltar si hay archivos flash en un sitio, ya sea para eliminar el contenido o pasarlo a otro formato.
En el menú de configuración de la araña, debemos seleccionar “Check SWF” antes de crawlear.
Configuration > Spider
Para este ejemplo, es de reconocer que nos tocó mucho trabajo encontrar webs con múltiple cantidad de flash al interior de su contenido. Para este caso, encontramos el sitio web http://franciscanos.co/
Cuando el rastreo haya terminado, filtramos los resultados en la pestaña “Internal” por “Flash”.
Vemos cómo la herramienta pasa de mostrarnos 2.359 URLs crawleadas a 6, todas con contenido .SWF.
Al darle clic en la URL e irnos al menú inferior “Inlinks”, podemos ver la columna “From” donde está alojado el contenido elaborado en flash.
Este método sólo encontrará archivos .SWF que estén enlazados en una página. Si el flash es introducido a través de JavaScript, no aplica esta opción y se necesitará usar un filtro personalizado desde el buscador.
Cómo encontrar cualquier PDF que esté enlazado en el sitio web con Screaming Frog
Una vez la araña termine de rastrear, filtramos los resultados en la pestaña “Internal” por “PDF”.
Luego, en el menú inferior “Inlinks”, cuando seleccionamos la URL nos muestra en la columna “From” dónde está enlazado el PDF.
Para descargar todos los enlaces de los PDF´s asociados dando clic en el botón “Export” del visualizador principal.
Si por el contrario, quiero descargar la información del enlace, pero también donde está enlazado, deberemos seleccionar toda la lista de PDFs,
y descargar desde el “Export” del visualizador inferior
Para encontrar las páginas que contienen botones para compartir en redes sociales, tendremos que establecer un filtro personalizado antes de ejecutar la araña. Para configurar este filtro, vamos al menú principal
Configuration > Custom > Search
Ahí, introducimos el fragmento de código de la fuente de la página que, para este ejemplo, lo realizaremos con aquellas páginas que contengan la opción de “Compartir” de Facebook, por lo que se creó un filtro para facebook.com/plugins/like.php.
Estos filtros los podemos visualizar filtrando en el menú del visualizador principal por “Custom Search”
Una vez estemos ahí, filtramos por el contenedor que configuramos.
Cómo encontrar las páginas que están usando iframes en un sitio web
Funciona exactamente igual que para el punto anterior, únicamente que personalizamos el contenedor con el filtro: “<iframe” antes de ejecutar la araña.
Cómo encontrar páginas que contienen contenido de video o audio embebido – incrustado
Siguiendo la línea de los dos puntos anteriores, podemos encontrar páginas con contenido de vídeo o audio incrustado, estableciendo un filtro personalizado para un fragmento del código de incrustación de Youtube, HearThis, SoundCloud, Vimeo y otras plataformas que permiten embeber contenido:
Para un video embebido puntual:
1.Saber cuál es el video desde la plataforma:
2. Revisar el código de embebido:
Para este caso es: /embed/TNyIS8b4HdM”
3. Introducirlo en el contenedor:
4. Poner a correr la araña.
5. Filtrar en el menú superior por Custom Search
6. Filtrar por el contenedor en particular:
Cómo identificar páginas con títulos largos o cortos, y lo mismo con meta descripciones y URLs
Cuando la araña termine de crawlear, vamos a la pestaña del menú del visualizador “Page Titles” y filtramos por “Over 60 Characters” para ver los títulos de páginas que son demasiado largos.
Para los que son muy cortos le damos en “Before 30 Characters”
Podemos hacer lo mismo en la pestaña “Meta Description” o en la pestaña “URL”, dependiendo lo que estemos buscando optimizar:
Para URLs demasiado largas, filtramos por “Over 115 Characters”
Para el caso de meta descriptions se puede filtrar por más de 150 caracteres, menos de 70 caracteres o, en su defecto y dependiendo cómo estemos acostumbrados a trabajar, por más de 1.010 píxeles o menos de 400 píxeles.
Cómo encontrar títulos de páginas, meta descripciones o URLs duplicadas
Una vez la araña termine de crawlear, vamos a la pestaña del menú del visualizador principal”Page Titles”, y luego debemos filtrar por “Duplicate”.
Lo mismo podemos hacer para el caso de las meta descripciones o las URLs:
Para el caso de URL´s:
Cómo encontrar contenido duplicado y/o URLs que necesitan ser reescritos, redireccionados o canonicalizados
Después que la araña haya terminado de rastrear, debemos empezar a filtrar dependiendo las acciones que queremos lograr. Vamos a empezar con las URL´s.
Menú del visualizador principal > URL
Con los filtros “Underscores”, “Uppercase” or “Non ASCII Characters” podremos ver las URL´s que potencialmente podrían ser reescritas bajo una estructura más estándar.
Al filtrar por “Duplicate” veremos todas las páginas que tienen múltiples versiones de URL.
Asimismo, al filtrar por ‘Parameters”’ veremos las URLs que están parametrizadas.
Además, si vamos a la pestaña “Internal” del menú del visualizador principal y filtramos por “HTML”, al desplazarnos en la columna “Hash” en el extremo derecho, veremos una serie única de letras y números para cada página.
Si hace clic en “Export”, puedes utilizar el formato condicional en Excel para resaltar los valores duplicados en esta columna, mostrando en última instancia las páginas que son idénticas y necesitan ser abordadas.
Abrimos el archivo de Excel e identificamos la columna “Hash”
Luego eliminamos todas las columnas a su derecha para poder trabajar de manera más fácil. Nos paramos sobre la celda derecha del primer dato:
y ponemos la siguiente fórmula condicional: =+SI(AQ3=AQ2;1;0) (pongamos cuidado, porque “AQ” son los indicativos de la columna. Si se modifican las columnas de la izquierda, claramente se modifican los parámetros). Esta función lo que nos indica es que si las celdas AQ3 y AQ4 son iguales, se marca un 1, si son diferentes, se marca un 0.
Luego se arrastra la fórmula hasta el final de los datos y se nos marca con 1 las URLs con parámetros iguales:
Cómo identificar todas las páginas que incluyen meta directivas: nofollow, noindex, noodp, canonical, entre otras
Al finalizar el crawleo de la araña, hacemos clic en la pestaña “Directives” del menú del visualizador principal.
Para ver el tipo de directiva, simplemente nos desplazamos hacia la derecha y vemos las columnas que nos arrojan datos o simplemente o usamos el filtro para encontrar cualquiera de las siguientes etiquetas:
- index
- noindex
- follow
- nofollow
- noarchive
- nosnippet
- noodp
- noydir
- noimageindex
- notranslate
- unavailable_after
- refresh
Cómo verificar que mi archivo robots.txt funciona correctamente
Por defecto, la herramienta Screaming Frog cumplirá con las configuraciones que cada sitio web marque desde el archivo robots.txt. Como prioridad, las arañas seguirán las directivas hechas específicamente para el agente de usuario de Screaming Frog.
Si no hay directivas específicas para el agente de usuario de Screaming Frog, entonces la araña seguirá cualquier directiva para Googlebot, y si no hay directivas específicas para Googlebot, la araña seguirá las directivas globales para todos los agentes de usuario.
La araña sólo seguirá un conjunto de directivas, por lo que las reglas establecidas específicamente para Screaming Frog sólo seguirá esas reglas, y no las reglas de Google Bot ni ninguna regla global.
Si deseamos desea ignorar el robots.txt, simplemente seleccionamos esa opción en la configuración de la araña.
Configuration > Robots.txt > Settings
Cómo encontrar o verificar los datos estructurados u otros microdatos en una página web
Para encontrar todas las páginas que contienen datos estructurados o cualquier otro microdato, es necesario utilizar filtros personalizados. Simplemente hacemos clic en el menú principal “Configuration”, “Custom”, “Search” y en el menú de configuración introducimos la huella que está buscando.
Configuration > Custom > Search
Para encontrar todas las páginas que contienen el marcado de datos de Schema, simplemente añadimos el siguiente fragmento de código a los filtros personalizados: itemtype=http://schema.org
Luego se crawlea el sitio web y se puede visualizar las URLs con marcado de datos desde Schema en la opción del menú del visualizador principal “Structured Data” o “Custom Search”
En Structured Data nos presenta un menú particular con porcentajes de filtrado
Mientras que por Custom Search podemos filtrar por los contenedores que agregamos manualmente.
Es de resaltar que este crawleo soloe s posible si se agregó el marcado de datos desde el código fuente de la página o de marcado HTML, si se realizó el marcado de datos por JavaScript o plugin no nos crawlea.
Crawleo de sitemap de un sitio web con Screaming Frog
Cómo crear un Sitemap XML a partir de un sitio web crawleado
Una vez que la araña haya terminado de rastrear el sitio web, hacemos clic en el menú “Sitemaps” y seleccionamos “XML Sitemap”.
Una vez que haya abierto los ajustes de configuración del Sitemap XML, podremos incluir o excluir páginas por códigos de respuesta, última modificación, prioridad, frecuencia de cambio, imágenes, entre otros. Recordemos que por defecto, Screaming Frog sólo incluye URLs 2xx.
Lo ideal sería que el sitemap XML incluyera sólo una versión de estados 200, única y preferida (canónica) de cada URL, sin parámetros ni otros factores de duplicación. Una vez que se hayan realizado los cambios, pulsamos “Siguiente”. El archivo del mapa de sitio XML se descargará en nuestro dispositivo y nos permitirá editar la convención de nombres como deseemos.
Creación de un sitemap XML mediante la carga de URLs
La herramienta Screaming Frog también nos permite crear sitemaps XML mediante la carga de URLs de un archivo existente, ya sea pegando manualmente o importando el archivo.
Lo primero es cambiar ir a “Mode” del menú principal y luego seleccionar “List. Inmediatamente las opciones de crawler se modificarán.
Luego cambiar el parámetro dependiendo la acción que vayamos a ejecutar, para esto damos clic en “Upload”.
Si es mediante un archivo importado “From a File”, o “Enter Manually” para copiar y pegar las URLs. Una vez se crawlean las URLs, seguiremos el proceso del punto inmediatamente anterior.
Cómo comprobar un Sitemap XML existente
Podemos descargar de manera fácil un mapa del sitio XML existente o el índice, para comprobar si hay errores o discrepancias de rastreo.
Para esto vamos al menú superior y damos clic en”Mode”, luego seleccionar “List”.
A continuación, hacemos clic en “Upload”, del buscador principal de la herramienta, elegimos “Download Sitemap o Download Sitemap Index”, introducimos la URL del sitemap e iniciamos el rastreo.
Para este ejemplo usaremos el sitemap de www.loscreativos.co: https://loscreativos.co/sitemap_index.xml
Aquí ya podemos entrar a comprar un sitio web desde el rastreo directo desde su sitemap.
Identificación de páginas perdidas dentro del Sitemap XML
Podemos arreglar la configuración del rastreo para descubrir y comparar las URLs de los sitemaps XML con las URL del rastreo de un sitio web.
Vamos al menú principal pestaña de “Configuration”, luego “Spider”, y la herramienta nos da varias opciones para los sitemaps XML: “Auto Discover XML Sitemap via robots.txt” o introducir manualmente el enlace del sitemap XML en el cuadro que se habilita luego de marcar la casilla “Crawl These Sitemap”.
Es importante que tengamos en cuenta que si el archivo robots.txt del sitio web no contiene adecuadamente los enlaces de destino para todos los sitemaps XML, estos se deberán introducir manualmente.
Una vez que hayamos actualizado la configuración de rastreo de los sitemaps XML, vamos a “Crawl Analysis” del menú principal y damos clic en “Configure”
Aquí, nos aseguramos que la casilla “Sitemaps” esté marcada.
Debemos realizar el rastreo completo del sitio, volver a “Crawl Analysis” y pulsar “Start”.
Una vez completado el análisis de rastreo, podrás ver cualquier discrepancia de rastreo, como las URL que se detectaron dentro del rastreo de sitio completo y que faltan en el sitemap XML.
Para ver estas URLs, debemos filtrar en el menú del visualizador principal por “Sitemaps”
Luego filtrar por “URLs not in Sitemap”.
Aquí también encontraremos filtros para las URLs que se encuentran en el Sitemap, URLs marcadas como no indexables:
e incluso URLs que aparecen en múltiples Sitemaps:
Solución de problemas generales para un sitio web
Cómo identificar por qué ciertas secciones del sitio web no están siendo indexadas o clasificadas
La pregunta para muchas personas que recién empiezan en el mundo del SEO es ¿Por qué ciertas páginas no están siendo indexadas? Lo primero es que nos aseguremos que no fueron intencionadamente marcadas así desde el archivo robots.txt o etiquetadas como noindex.
Luego, que las arañas puedan llegar a cada una de las páginas revisando sus enlaces internos, pues cuando un portal web que no vincula internamente sus páginas se les denomina como una página huérfana.
Identificar cualquier página huérfana dentro de un sitio web con Google Analytics:
Vamos a “Configuration” del menú principal y luego a “Spider”. Aquí verifiquemos que estén marcadas las opciones correspondientes al sitemap.
Luego, vamos al menú principal nuevamente: “Configuration + API Access” + “Google Analytics”:
Mediante esta API podemos obtener datos de análisis para cuentas y vistas específicas. Solo es conectar con una nueva cuenta:
Permitir los datos de acceso de la herramienta Screaming Frog
Seleccionar la cuenta con la que vamos a trabajar:
y aceptar.
También podemos ir a “General” dentro de la “API Access de Google Analytics”,
Y marcar “Crawl New URLs Discovered In Google Analytics” si queremos que las URLs descubiertas por Google Analytics se incluyan en el crawleo completo de nuestro sitio web. Si esto no está habilitado, sólo podremos ver las nuevas URLs extraídas de Google Analytics dentro del informe de páginas huérfanas.
Rastreamos todo el sitio web. Una vez que el rastreo se haya completado, vamos a “Crawl Analysis” y “Start” y esperamos a que termine.
Para visualizar todas las URLs huérfanas es necesario ir a verlas una a una en cada una de las pestañas alojadas en el menú del visualizador principa (Analytics o Search Console, dependiendo el caso):
Filtramos por “Orphan URLs” en el menú del visualizador principal del “Analytics”
Identificar cualquier página huérfana dentro de un sitio web con Google Search Console:
Vamos al menú principal “Configuration + API Access + Google Search Console”
Repetimos el tema de logueo y autorización como con Google Analytics:
Usando la API podemos obtener los datos del Google Search Console para una cuenta específica y rastrear desde la herramienta Screaming Frog. Para encontrar páginas huérfanas podemos buscar URLs que reciban clics e impresiones que no estén incluidas en el rastreo.
También podemos ir a “General” dentro de la “API Acces de Google Search Console”
y marcar “Crawl New URLs Discovered In Google Search Console” si queremos que las URLs descubiertas por Google Search Console se incluyan en el crawleo completo de nuestro sitio web. Si esto no está habilitado, sólo podremos ver las nuevas URLs extraídas de Google Analytics dentro del informe de páginas huérfanas.
Rastreamos todo el sitio web. Una vez que el rastreo se haya completado, vamos a “Crawl Analysis” y “Start” y esperamos a que termine.
Para visualizar todas las URLs huérfanas es necesario ir a verlas una a una en cada una de las pestañas alojadas en el menú del visualizador principa (Analytics o Search Console, dependiendo el caso):
Filtramos por “Orphan URLs” en el menú del visualizador principal del “Search Console”
Para descargarlas en un archivo CSV de Excel, vamos a la pestaña “Reports” del menú principal y damos clic en “Orphan Pages”.
Aquí descarga tanto para Google Analytics como para Google Search Console.
Cómo encontrar páginas de carga lenta en un sitio web
Lo primero es poner a crawlear un el sitio web que deseamos analizar. Una vez la araña haya terminado de rastrear, vamos a la pestaña “Response Codes” del menú del visualizador principal y ordenemos por la columna “Response Time”, organizando de alto a bajo para encontrar páginas que tengan una velocidad de carga lenta.
Reescritura de URLs para un sitio web
Cómo encontrar y eliminar la identificación de sesión y otros parámetros de URLs rastreadas
Para identificar las URLs con identificadores de sesión y otros parámetros, simplemente rastreamos un sitio con la configuración predeterminada de Screaming Frog. Cuando la araña termine, hacemos clic en la pestaña “URL” del menú del visualizador principal y filtramos a “Parameters” para ver todas las URL que incluyen parámetros.
Para eliminar los parámetros que se muestran para las URLs que rastreamos, seleccionamos “URL Rewriting” ubicada en el “Configuration” del menú principal:
Nos ubicamos en la pestaña “Remove Parameters”, añadimos uno a uno los parámetros que deseamos eliminar de las URL y pulsamos “Aceptar”. Si por el contrario queremos que se realice de manera predeterminada, solo marcamos la casilla “Remove all”
Tendremos que ejecutar la araña de nuevo con estos ajustes para que la reescritura ocurra. Esto solo es recomendable con el volumen de reescritura de URLs es alto, de lo contrario lo podemos hacer manualmente yendo directamente al CMS.
Cómo reescribir las URLs rastreadas (por ejemplo: reemplazar .com por .com.co, o escribir todas las URLs en minúsculas)
Para reescribir cualquier URL que rastreemos, seleccionamos ” URL Rewriting” ubicada en el ítem “Configuration” del menú principal.
Luego en la pestaña “Regex Replace”, hacemos clic en “Add” para agregar el RegEx de lo que queremos reemplazar.
Para este ejemplo diremos que queremos cambiar todas las URLs terminadas en .co a unas en .net, dado que quisiéramos redireccionar todo un sitio web. en el “Regex” ponemos: “.co” y en el “Replace” (la nueva extensión de las URLs) “.net”
Una vez que hayamos añadido todas las reglas deseadas, podemos probar las reglas en la pestaña “Test”, de la misma ubicación. Allí aparecerá predeterminado el ejemplo del cambio; en el espacio denominado “URL after rewriting” cómo se verán las URLs, en el campo “URL after rewriting” la URL antes del cambio.
Se puede ver entonces como en la pestaña “Test”, nos muestra cómo se haría efectiva este cambio en la parametrización de la finalización de URLs.
Ejecutamos la araña tenemos el resultado:
Ahora bien, si deseamos establecer una regla para que todas las URLs se conviertan en minúsculas, sólo debemos que seleccionar “Lowercase discovered URLs” en la pestaña “Options” de la misma ventana que venimos trabajando de “URL Rewriting”
De esta forma, se eliminará cualquier mayúscula de la URL.
Investigación de palabras clave con Screaming Frog
Screaming Frog no permite conocer las keyword research a niveles de volúmenes de búsqueda o intenciones de query, para eso no fue desarrollada la herramienta, pero sí permite analizar aquellas páginas de mayor popularidad de acuerdo a los enlaces y anchor text que usan los competidores.
En general, un sitio web al que se le haga SEO o tiene un comportamiento orgánico positivo por sus buenos contenidos, se caracterizan por difundir la popularidad de los enlaces y dirigir el tráfico a sus páginas más valiosas, enlazándolas internamente.
Encontremos entonces, las páginas más valiosas de nuestro competidor rastreando su sitio, luego clasificando por la pestaña “Internal” del menú del visualizador principal y finalmente por la columna “Inlinks”, para ver qué páginas tienen más enlaces internos.
“Inlinks” se encuentra en el extremo derecho de las columnas, pero para este caso práctico es recomendable ponerlo, ya sea bien al lado de la URL principal o justo en el Title y meta description para poder comprender bien la tipología de contenido.
Ahora bien, para ver las páginas enlazadas desde el blog de nuestro competidor (a manera de revisar sus referentes), desmarcamos “Check links outside folder” ubicado en el “Configuration” del menú principal y rastreamos la carpeta o subdominio del blog.
Configuration > Spider > Check links outside folder
Recordemos los pasos para rastrear solo una carpeta o subdominio para terminar de configurar el filtro de la carpeta específica y a crawlear:
Filtramos por la columna “Inlinks” de la pestaña “External”, y volvemos a filtrar por HTML en tipología de filtros.
Cómo saber los anchor text que está usando la competidores en sus enlaces interno
Lo primero que debemos hacer es crawlear la página de la competencia. Una vez la araña termine de rastrear, vamos al menú principal en la opción “Bulk Export”, seleccionamos “All Anchor Text” para exportar un Excel de formato .CSV, y este contendrá todos los anchor text del sitio web, dónde se utilizan y a dónde están enlazados.
Cómo saber qué palabras clave -keywords- han añadido los competidores de un sitio web
Aunque el tema de agregar las keywords a un sitio web, puntualmente al CMS, para orientar los motores de búsqueda es una práctica que se dejó de realizar a nivel de SEO desde hace muchos años, existen algunos administradores de portales web que lo siguen haciendo.
Esta es una mala práctica, no sólo porque no aporta nada a Google pero sí nos quita tiempo, sino porque le aporta información a la competencia de las palabras clave que están usando.
Ponemos a correr la araña con la configuración predeterminada para crawlear el sitio web de nuestra competencia o la competencia de nuestro cliente.
Luego filtramos por “meta keywords” del menú del visualizador principal. En la columna “Meta Keywords 1” encontramos las palabras claves asociadas a cada uno de los contenidos, así podemos saber a qué tipo de keywords le están apostando.
Luego podemos exportar esta información si así lo deseamos.
Ahora si el caso es para una URL particular o un grupo cerrado de URLs, solo cambió la modalidad de búsqueda de la araña de la herramienta en el menú principal “Mode” y “List”
Subir desde un archivo que tengamos
Entrar manualmente
y poner a crawlear la araña. Luego repetimos el filtro por la pestaña del menú del visualizador principal “Meta keywords”
Investigación y gestión de link building para un sitio web propio o de un competidor
Cómo analizar una lista de URLs y sus tipos de enlace
Por lo general cuando uno va a analizar el linkbuilding de un sitio web, entra a examinar una lista cerrada de URLs y no todo un sitio web, pues analizamos URLs orientadas a un objetivo particular.
Para esto, debemos usar la araña de la herramienta desde “List”
y agregamos las URLs a analizar, sea desde la importación de un archivo con el listado de URLs o ingresando éstas manualmente. Para este caso utilizaremos de ejemplo la URL https://es.semrush.com/blog/linkbuilding-de-calidad-tecnicas-seo/ del artículo que escribimos para SEMrush de 6 técnicas de calidad para realizar linkbuilding:
Cuando la araña termine de rastrear, debemos realizar 3 acciones particulares para comprender este proceso antes de entrar a descargar en CSV para trabajarlo en el escritorio o subirlo a un Google Sheets.
1.Que el status code sea igual a 200, es decir que la página cargue correctamente.
2. Seleccionar la URL y filtrar por “Outlinks” de la ventana del visualizador secundario
3.Aquí encontraremos las siguientes columnas:
-
- Tipo de enlaces: text, imagen, CSS, JS, HTML canonical
- From o URL que estamos analizando. En este caso es una sola.
- To o hacia donde está el enlace
- Anchor text o texto ancla usado
- ALT text o texto alternativo para las imágenes
- Follow, que es para verificar si el enlace es True o False, es decir, si transfiere o no autoridad
- Link atributos o atributos del link: DoFollow, NoFollow
Vamos a querer utilizar filtros personalizados para determinar si ésta o esas páginas ya están enlazadas con nuestro portal web o no.
Vamos a Configuration > Custom > Search
Agregar parámetro con botón “Add”
Cambiar el filtro por “Does not contain”
Se pueden agregar varios filtros
Luego, para segmentar por cada uno de estas URLs, filtramos por el menú del visualizador principal “Custom Search”
Y luego, a su vez. filtrar en tipología de filtros por el contenedor que queramos revisar
Esta acción es recomendada cuando son múltiples URLs. Cabe recordar que para que funcione los contenedores de filtros parametrizados, se debe crawlear siempre después a que se agreguen.
Para descargar los archivos, se puede hacer de dos formas. La primera es desde el menú principal
Bulk Export > All Outlinks
o desde el botón “Export” del menú del visualizador secundario:
En ambos casos nos exporta en un formato de Excel .CSV.
Cómo encontrar enlaces rotos de un sitio web para resolverlos o reclamarlos
En este enlace encontramos el paso a paso para encontrar enlaces rotos de un sitio web. Luego de esto, si el sitio web es nuestro lo que hacemos es que procedemos a solucionarlo, pero si el sitio web es externo y analizamos las URLs de donde nos enlazan, punto que se explica en el apartado de inmediatamente anterior, podemos proceder a exportar el listado, agregar la URL correcta en un Excel y ponernos en contacto con el propietario o redactor del sitio web para que nos responda con la solución del enlace o la eliminación definitiva de este, dado el caso que sea lo que queramos hacer.
Arquitectura de información, visualización de encarpetados y enlazados de un sitio web
Luego que la araña termine de crawlear el sitio web, vamos al menú principal de la herramienta opción “Visualisations”.
Aquí encontraremos 5 opciones. Las opciones 1 y 2 son para encarpetados, las opciones 3 y 4 para enlazados y las opciones 5 y 6 para nube de palabras
- Opción 1: Crawl Tree Graph: Este muestra el mapa del sitio por encarpetados:
- Opción 2: Directory Tree Graph: Este muestra el encarpetado del sitio pero le aumenta los protocolos HTTP, HTTPs y WP-Content:
Cómo encontrar de manera visual el mapa de enlazados de un sitio web
- Opción 3: Force-Directed Crawl Diagram: Muestra la página web por nodos alrededor de sus enlazados internos:
Sirve para ver de manera gráfica cuáles son las páginas que tienen mayor comportamiento de enlaces.
Está compuesto por varios colores:
El color verde: URLs indexables. Entre mayor fuerza sea el color es porque tiene a su cargo mayor cantidad de URLs indexables. Entre más claro sea el verde es porque tiene a su cargo URLs indexables como no indexables, pero son mayor cantidad las indexables.
El color rojo: URLs no indexables. Al poner el cursor sobre el nodo rojo nos indica la razón porque no está indexada. Puede ser por configuración del robots.txt, un redireccionamiento e incluso un error.
El color amarillo: URLs destacadas. Son aquellas URLs que destacan por su mejor comportamiento
El color azul: Nodo de folios. Encarpetados con múltiples carpetas a su cargo.
El color naranja: URLs contraídas. Son aquellas URLs fueron acortadas por su longitud.
El color gris: Nodos contraídos. Aquellas URLs que por su gran cantidad de hijos no se pueden visualizar todos. De esta manera Screaming Frog marca que no se hizo completo el rastreo.
- Opción 4: Force-Directed Directory Tree Diagram: Muestra la página web por nodos alrededor de sus encarpetados:
Al pararse sobre cada nodo muestra la URL y datos asociados con el SEO on Page y magnitud de texto del contenido.
Cómo hacer una nube de palabras con las más usadas en anchor text y textos de contenido de un sitio web
- Opción 5: Inlink Anchor Text Word Cloud: Muestra una nube de palabras de acuerdo a los anchor text más usados en el sitio web:
- Opción 6: Body Text Word Cloud: Este nos muestra una nube de palabras de acuerdo a todo el texto usado a lo largo y ancho de la página web. Las palabras más usadas son las que se visualizan más grande.
Para que este funcione debemos realizar una configuración previa.
Configuration > Spider > Extraction
Marcar los puntos “Store HTML” y “Store render HTML”
Para finalizar. ¿Cómo nos pareció el artículo? Seguro algunos no lo leyeron completo pero sí encontraron una que otra técnica para optimizar la estrategia SEO con Screaming Frog
No siendo más, podemos compartir el texto por las plataformas que consideremos, aprender es un reto que nos compete a todos y compartir información que nos ayude a esto mucho más.
Screaming Frog es una herramienta maravillosa, pero debemos formarnos en tecnicismos, metodologías y experiencias. !Síguenos en redes sociales y compartamos información!
¿Quieres una estrategia SEO para tu negocio? ¡Mira todas las posibilidades que podemos crear para ti!