Guía detallada de Screaming Frog: paso a paso de cómo usarla para optimizar las estrategias SEO de un sitio web

Tabla de contenidos mostrar

En este artículo desarrollamos a niveles de detalles técnicos e ilustrativos los diferentes usos de la herramienta Screaming Frog. Así, podremos sacarle provecho para la optimización SEO de diferentes sitios web, mientras paralelamente analizamos competidores e implementamos mejoras que ayudarán a tomar ventaja en cualquier nicho o mercado digital.  

 

Este artículo que escribimos desde nuestra agencia de marketing digital en Medellín, es basado en la actualización realizada (inglés) por Richie Lauridsen y Allison Hahn el 19 de febrero de 2020 a la publicación original del 11 de mayo de 2015. No solo es una traducción, es a su vez, un complemento pues le agregamos detalles técnicos, explicativos e ilustrativos que nos ayudarán a comprender y sacarle mayor provecho a Screaming Frog y a nuestras estrategias SEO.

 

Esperamos que a este manual que hemos desarrollado se le pueda sacar el mayor provecho, que se comparta y sea aplicado.

 

Estrategia SEO

 

Antes de empezar, lo primero que debemos tener es la herramienta y tener claro para qué sirve. Para eso lo primero que debes hacer es descargar Screaming frog.

¿Qué es Screaming Frog?

 

Screaming Frog es una herramienta de rastreo y análisis de URLs que permite obtener información completa sobre cualquier sitio web, y la cual ofrece dos versiones de uso:  uno gratuito para el crawleo de hasta 500 URLs; y el  ilimitado para cantidades ilimitadas de URLs con un pago anual de £149 -Libras, unos $728.000 pesos colombianos o U$185 dólares. Es decir, que al facilitar monitorear todo un sitio web nos permite identificar el estado de salud del proyecto web. 

 

¿Cómo instalar Screaming Frog?

 

Screaming Frog puede ser instalada directamente desde la sección de download del sitio oficial de Screaming Frog y allí seleccionar el sistema operativo con el cual estés trabajando en tu computadora. 

 

La herramienta presenta disponibilidad para sistemas operativos como:

 

  1. Mac OS.
  2. Ubuntu. 
  3. Windows. 

 

Una vez descargues el archivo en tu ordenador, deberás proceder con la instalación, la cual no es compleja de llevar a cabo. 

 

1. Monitoreo del SEO on Page:

Screaming Frog permite los detalles técnicos de todas y cada una de las URLs de un sitio web en las SERPs:

 

URLs:

Muestra cada una de las URLs específicas alojadas en la web.

 

Title y meta description:

Indica cada uno de los titles y meta descriptions de los contenidos alojados en las URLs del sitio web. Muestra la extensión de estos textos en cantidad de caracteres y pixeles y el texto puntual para cada uno de estos dos snippets.

 

Encabezados:

Presenta los H1 y H2 asociados al contenido. Muestra hasta dos H1 y H2. Asimismo, muestra la extensión de cada uno en cantidad de caracteres y pixeles y el texto particular de cada uno de ellos.

 

Imágenes:

Presenta los cuatro puntos claves para optimizar una imagen de un portal web: el tamaño, la URL, el título y el peso.

 

2. Identificación de los status code:

La herramienta identifica los códigos de respuesta para cada una de las URLs asociadas al sitio web, independientemente de si están o no indexadas.

 

Status code 200:

Si la URL carga sin ningún tipo de inconveniente.

Status code 301:  

Si la URL tiene asociada una redirección permanente.

 Status code 302:

Si la URL tiene asociada una redirección temporal.

 Status code 404:

Si la URL ya no existe o se ha cambiado de ubicación y por ende no aloja contenido.

Status code 5xx:

Problemas asociados a configuraciones, comúnmente de servidor.

Canonical:

URLs que permiten prevenir la duplicidad o canibalización de contenidos. A través de la “rel canonical” se le indica a Google que esa específica URL es la copia principal en contraste con otras páginas similares dentro del mismo sitio web.

Visibilización de la arquitectura de información:

Permite ver la estructura de la información en diversos formatos. Se puede visibilizar desde la raíz (home) y ver su ramificación de encarpetados, subdominios y enlazados, a su vez, también presenta la información a nivel gráfico, donde se pueden evidenciar los grandes nodos de confluencia de información y las palabras más usadas a nivel de anchor text.

 

Ejemplos de visualización de la arquitectura de un sitio web en Screaming Frog

 

Modelo crawl tree graph que brinda la herramienta:

crawl tree graph

 

Ejemplo de visualización de la web por nodos de enlazado o force-directed crawl diagram

force-directed crawl diagram

Ejemplo de nube de palabras de la web por importancia de anchor text o inlink anchor text en Screaming Frog:

 

nube de palabras de la web

Los tres ejemplos de visualización fueron para la página web de nuestra agencia de marketing digital y SEO

 

4. Rendimiento de las URLs:


La araña de Screaming Frog permite integrarse con Google Analytics y Google Search Console, de tal forma que nos facilita monitorear y analizar el rendimiento de cada una de las URLs asociadas al tráfico, tiempo de permanencia, conversión y de más KPIs asociados a los contenidos de un sitio web. Asimismo, existen conexiones con otras herramientas como Ahrefs, Majestic o Moz, al igual que con el Page Speed Inside. 

 

Screaming Frog

 

Este apartado se explicará más adelante a nivel de detalle.

 

Ahora bien, una vez comprendido qué es Screaming Frog, empezaremos con una explicación de los diferentes componentes de la herramienta: 

 

Entendimiento de los espacios de la herramienta Screaming Frog

 

A continuación listamos cada una de los espacios que nos brinda Screaming Frog como herramienta: 

 

Menú principal de la herramienta

 

Es aquel menú que encontramos en la parte superior de Screaming Frog. Encontramos opciones para:

  • Abrir archivos.

 

  • Configurar la araña desde los robots.txt, la velocidad de crawleo, la inclusión o exclusión de carpetas, subdominios o páginas de aterrizaje.

 

  • El modo de crawleo, si es por araña a todo el sitio web, permite importación de URLs desde un archivo, rastreo de asignación manual para URLs o crawleo desde un sitemap XML.

 

  • Exportación de archivos a niveles generales o detallados de segmentación de reportes.

 

  • Configuración o generación de sitemaps a partir de crawleos específicos.

 

  • Visualización de la arquitectura de información o de ubicación de URLs puntuales.

 

  • Análisis internos comparativos entre lo crawleado y lo que se desea encontrar.

 

  • Opción para validar la licencia de compra para la versión pro.

 

  • Soporte mediante guías, preguntas frecuentes, soportes o revisión de actualizaciones.

 

El menú principal lo ubicas en el recuadro rojo:

Screaming frog

 

Barra de crawleo de sitios web

 

Este es el corazón de la herramienta. Aquí se introduce la URL del sitio web que deseamos crawlear o rastrear.

 

Screaming Frog

 

Se puede modificar la forma de crawleo, ya sea por URL, importación de URLs e archivos .txt, .CSV, .xls y .xml. Para cambiar la forma de crawlear damos clic en el “Mode” del menú principal.

Screaming Frog

 

Menú del visualizador principal de la herramienta

Este nos permite empezar a filtrar por categorías dependiendo lo que estemos explorando en un sitio web. Lo ubicamos justo debajo de la barra de crawleo.

 

Screaming Frog

 

Es tan extenso que existen dos pequeños botones demasiado juntos y uno casi que tapa al otro. El más visible es para habilitar o deshabilitar opciones de categorías según nuestras necesidades. Basta con marcar o desmarcar:

 

Screaming Frog

 

Debajo de esta flecha desplegable con un pequeño botón que pasa desapercibido al que debemos prestarle atención, pues este nos permite ver todo el listado completo del Menú del visualizador principal y dar clic a la opción que queremos filtrar:

 

Screaming Frog

 

En este menú se encuentran las siguientes opciones:

 

  1. Internal: Para revisar el detalle interno de cada una de las URLs.
  2. External: Para revisar el detalle externo de cada una de las URLs.
  3. Protocol: Para filtrar por HTTP o HTTPS.
  4. Responses code: Para filtrar directamente por códigos de respuesta para las URL.
  5. URL: detalles técnicos de cada URL.
  6. Page Titles: Filtra por Title usado y su longitud en caracteres y pixeles.
  7. Metadescription: Filtra por meta description usada y su longitud en caracteres y pixeles.
  8. Meta Keywords: Filtra por Meta Keywords usadas y su longitud en caracteres y pixeles.
  9. H1: Filtra por H1 usados (hasta 2) y su longitud en caracteres y pixeles.
  10. H2: Filtra por H2 usados (también hasta un máximo de 2) y su longitud en caracteres y pixeles.
  11. Images: Filtra todos los datos asociados a las imágenes crawleadas: tamaño, title, ALT, enlazados, entre otros.
  12. Canonicals: Filtra las URLs canonicalizadas, sus ocurrencias y URL canonical.
  13. Pagination: Muestra si existe alguna URL con paginación particular.
  14. Directives: Filtra las URLs que tiene DoFollow, NoFollow, Index, No index, entre otros.
  15. Hreflang: Filtra las URLs que tienen asignadas etiquetas de georreferenciación estipuladas.
  16. AJAX: Filtra las URLs que tiene el atributo “Hash Fragment” o “Without Hash Fragment” marcado.
  17. AMP: URLs que han sido optimizadas de alguna manera con el código promovido por Google: Accelerated Mobile Pages.
  18. Structured Data: Filtra las URLs con datos estructurados.
  19. Sitemaps: Filtra las URLs que están al interior del sitemap, por fuera del sitemap, están huérfanas e incluso que pertenecen a múltiples sitemaps.
  20. PageSpeed: Filtra por las diferentes opciones de maximización de velocidad para las URLs.
  21. Custom Search: Filtra por opciones configuradas manualmente de búsqueda, es decir, que no están configuradas de manera predeterminada en la herramienta.
  22. Custom Extraction: Filtra por opciones configuradas manualmente de extracción, es decir, que no están configuradas de manera predeterminada en la herramienta.
  23. Analytics: Filtra por los datos extraídos de Google Analytics para cada una de las URLs como porcentaje de rebote, número de sesiones, tasas de conversión, páginas huérfanas, entre otras. Debe configurarse previamente desde la API.
  24. Search Console: Filtra por los datos extraídos de Google Search Console para cada una de las URLs como porcentaje de rebote, número de sesiones, tasas de conversión, páginas huérfanas, entre otras. Debe configurarse previamente desde la API.
  25. Link Metrics:  Filtra por opciones configuradas manualmente de agentes de usuario, es decir, que se deben configurar previo al crawleo como Bing Bot, Yahoo Bot, Google Bot, entre otros.

 

 

Visualizador principal de la herramienta

 

Este nos permite visualizar a niveles de detalle cada una de las URLs rastreadas de un sitio web. Solo funciona una vez se crawlea un sitio web:

Herramienta

 

Categorías o columnas del Visualizador principal de la herramienta

 

Aquí ya empezamos a revisar el detalle técnico de los rastreado. Cada opción del Menú del visualizador principal tiene a su vez asignadas unas categorías o columnas que muestran el detalle técnico de las URLs.

 

Herramienta Screaming Frog

 

Como se observa en la imagen, hay un scroll lateral que permite movilizarse alrededor de las categorías o columnas. ¿Qué tipo de información contienen las categorías? Pues tenemos que adentrarnos en el artículo para conocer la magia al interior de esta herramienta.

 

 

Filtro de tipología de contenido

Este filtro permite filtrar por tipo de contenido cada una de las opciones del menú principal de la herramienta. El filtro lo hace efectivo en el Visualizador principal de la herramienta:

 

Filtro de tipología

 

Por ejemplo, para este caso, se filtra por “HTML” (contenido que consume el usuario) y se visualizan 60 URLs, diferente al filtro anterior “All” que muestra 350 URLs:

 

Filtro de tipología

 

Las URLs identificadas como HTML son aquellas URLs con las que debemos trabajar para impulsar las estrategias SEO de nuestro sitio web. 

 

 

Recuadro de índice del menú del visualizador principal de la herramienta

Aquí encontramos un breve resumen que funciona a su vez, de índice para encontrar cierta información del crawleo filtrado por las opciones del menú del visualizador principal.

 

Recuadro del menú del visualizador

 

Este nos muestra cantidad de URLs asociadas a cada opción del menú del visualizador principal y el respectivo porcentaje de cada una de las categorías o columnas asociadas a las opciones del menú.

 

Al darle clic a cada ítem del índice, este actualiza el filtro de tipología de contenido:

 

Recuadro de porcentajes del menú del visualizador principal de la herramienta

Aquí encontramos un breve resumen a nivel de porcentajes de repartición que tienen cada una de los filtros de tipología de contenidos de las opciones del menú de visualizador principal:

 

Recuadro de porcentajes

 

De esta manera sabemos que tipos de URLs son las más o menos sobresalientes de cara a lo que estamos filtrando.

 

Menú del visualizador inferior de la herramienta

Este menú nos permite hacerle una especie de doble clic al detalle técnico de cada URL

 

Visualizador inferior

 

Aquí se pueden ver:

 

  1. URL details: los detalles técnicos de cada URL.
  2. Inlinks: Los enlazados internos de cada URL.
  3. Outlinks: Los enlazados externos de cada URL
  4. Image Details: Dónde está ubicada la imagen, enlace de la imagen y atributo ALT de la imagen.
  5. Resource: Si la URL utiliza algún tipo de plugin, JavaScript u otro tipo de componente.
  6. SERP snippet: Visualiza el detalle de los snippets en la SERP y muestra su longitud en caracteres y pixeles.
  7. Rendered Page: Muestra los porcentajes de renderizado para los JavaScript.
  8. View Source: Visualiza el código fuente, pero debe configurarse la araña previamente.
  9. Structured Data Details: Visualiza el detalle de los datos estructurados, dado el caso que tenga alguno implementado.
  10. PageSpeed Details: Visualiza el detalle de las optimizaciones de velocidad de las URLs, dado el caso que estén configuradas de alguna manera.

 

Visualizador inferior de la herramienta

Este visualizador muestra el detalle de cada URL dependiendo la opción del menú inferior que tengamos activo:

 

Visualizador inferior

 

Opciones de exportación

Existen múltiples formas de exportar. Se debe tener en cuenta cuál se usa, ya que dependiendo de esto la herramienta exporta mayor o menor cantidad de datos:

 

Opciones de exportación del menú principal:

Opciones de exportación

Screaming Frog

 

Herramienta screaming frog

 

Botón exportar del visualizador principal:

 

Exportar

 

Botón exportar del visualizador inferior:

 

Exportar Screaming Frog

 

Clic derecho en URLs del menú del visualizador principal o inferior

Al hacer clic derecho en cualquier URL del visualizador principal de los resultados podremos encontrar variada oportunidad acciones o esculcar cierto tipo de información.

 

  1. Copiar la URL.
  2. Abrir la URL en el navegador.
  3. Volver a rastrear únicamente esta URL o eliminar del crawleo actual.
  4. Exportar la información de la URL:  enlazados internos, enlazados externos o información general de la página web.
  5. Comprobar la indexación en motores de búsqueda como Google, Bing y Yahoo!
  6. Revisar los enlaces de la página en Majestic, OSE, Ahrefs y Blekko.
  7. Mirar la versión en caché / fecha de caché de la página.
  8. Ver versiones anteriores de la página.
  9. Validar el HTML de la página.
  10. Abrir robots.txt para el dominio donde se encuentra la página.
  11. Buscar otros dominios en la misma IP.

 

En la siguiente imagen lo mostramos de manera más gráfica:

 

Screaming Frog

 

De la misma manera,  en la ventana inferior, con un clic derecho, podemos

  1. Copiar la URL
  2. Abrir la URL en un navegador
  3. Abrir la URL a donde está enlazada en un navegador

 

Ahora ya entendiendo el funcionamiento de Screaming Frog, aquí está el índice del contenido para la optimización de la estrategia SEO.

 

 

Índice de estructura del post de optimización de estrategia SEO con Screaming Frog

Toda la información de Crawleo de un sitio web

 

¿Qué es crawlear un sitio web?

Configuración básica de Screaming Frog

Crawlear todo nuestro sitio web

Cómo crawlear un solo subdirectorio

Cómo crawlear un conjunto específico de subdominios o subdirectorios

Reglas de exclusión de parámetros

Reglas de inclusión de parámetros

Generar únicamente lista de páginas con contenido del sitio web

Encontrar todos los subdominios de un sitio web 

Método 1 para encontrar subdominios de un sitio web: solo Screaming Frog
Método 2 para encontrar subdominios de un sitio web: Footprints y Screaming Frog

 

Cómo crawlear un e-commerce o sitio grande

Crawlear un sitio alojado en un servidor antiguo o rastrear una página sin bloquear el servidor

Cómo crawlear un sitio que requiere cookies

Crawlear usando un agente de usuario diferente

Rastrear las páginas que requieren autenticación

 

 Crawleo de enlaces internos de un sitio web

Información sobre todos los enlaces internos y externos de un sitio web
Cómo encontrar enlaces internos rotos en una página o sitio
Cómo encontrar enlaces salientes rotos en una página o sitio (o todos los enlaces salientes en general)
Cómo encontrar los enlaces que están siendo redirigidos en un sitio web

 

Crawleo de contenido de un sitio web

Cómo identificar las páginas con poco contenido

Crawlear una lista de los enlaces de imágenes de un sitio web

Cómo encontrar imágenes a las que les falta el texto alternativo o imágenes que tienen un texto alternativo muy largo

Cómo encontrar todos los archivos CSS y JavaScript de un sitio web con Screaming Frog

Cómo identificar todos los plugins de jQuery usados en el sitio y en qué páginas se están usando 

Cómo encontrar dónde está embebido contenido flash en el sitio web

Cómo encontrar cualquier PDF que esté enlazado en el sitio web

Cómo crawlear páginas para encontrar botones para compartir en redes sociales (Facebook, Twitter, Instagram)

Cómo encontrar páginas que estén usando iframes en un sitio web

Cómo encontrar páginas que contengan contenido de video o audio embebido – incrustado

 

Crawleo de MetaData y Directivas

Cómo identificar páginas con títulos largos o cortos, y lo mismo con meta descripciones y URLs

Cómo encontrar títulos de páginas, meta descripciones o URLs duplicadas

Cómo encontrar contenido duplicado y/o URLs que necesitan ser reescritas, redireccionadas o canonicalizadoas.

Cómo identificar todas las páginas que incluyen meta directivas: nofollow, noindex, noodp, canonical, entre otras

Cómo verificar que el archivo robots.txt funciona correctamente

Cómo encontrar o verificar los datos estructurados u otros microdatos en una página web

 

Crawleo de Sitemap

Cómo crear un sitemap XML a partir de un sitio web crawleado

Creación de un sitemap XML mediante la carga de URLs 

Quiero comprobar un sitemap XML existente

Comprobar URLs perdidas dentro de un sitemap XML.

 

 

Solución de problemas generales de un sitio web

Cómo identificar por qué ciertas secciones de un sitio no están siendo indexadas o clasificadas

Identificar páginas huérfanas dentro de un sitio web con Google Analytics
Identificar páginas huérfanas dentro de un sitio web con Google Search Console

Cómo encontrar páginas de carga lenta en un sitio web

 

Reescritura de URLs para un sitio web

Cómo encontrar y eliminar la identificación de la sesión y otros parámetros de URLs rastreadas

Cómo reescribir las URLs rastreadas (por ejemplo: reemplazar .com por .com.co, o escribir todas las URLs en minúsculas)

 

Investigación de palabras clave con Screaming Frog

Cómo saber qué páginas valoran más mis competidores

Cómo conocer los anchor text que usa la competencia para los enlaces internos

Cómo conocer las keywords o palabras clave que usa la competencia de un sitio web

 

Investigación y gestión de link building para un sitio web propio o de un competidor 

Cómo analizar una lista de URLs y sus tipos de enlace

Cómo encontrar enlaces rotos de un sitio web para poder solucionarlos o reclamarlos

Cómo hacer una nube de palabras con las más usadas en anchor text y textos de contenido de un sitio web

 

Arquitectura de información, visualización de encarpetados y enlazados de un sitio web

Cómo mirar de manera visual el mapa de navegación y encarpetado de un sitio web

Cómo encontrar de manera visual el mapa de enlazados de un sitio web

 

Toda la información de Crawleo de un sitio web con Screaming Frog

A continuación presentamos de manera detallada todo lo pertinente al uso de la herramienta para el caso puntual de crawleo:

 

 

¿Qué es crawlear un sitio web?

Cuando decimos que una herramienta como Screaming Frog “crawlea”, hablamos de que ejecuta diversos procesos para rastrear, recopilar y entregar datos sobre esas URLs asociadas a un dominio. ¿Cómo ocurre el crawleo? A  través de  “arañas” o bots que visitan el sitio web específico para luego compilar toda la información asociada a este.

 

Esto es importante porque nos permite saber con exactitud la cantidad de URLs asociadas a la página web, e incluso, filtrarlas por HTML, es decir, únicamente las asociadas a contenido, dejando a un lado todos los componentes de CSS, JavaScripts, PDF’s, entre otros formatos. Claro está, se puede filtrar por los diferentes formatos dependiendo las instancias que se deseen analizar para luego implementar las respectivas mejoras.

 

 

Crawlear sitio web

 

Configuración básica de la herramienta Screaming Frog

El punto clave aquí es iniciar el crawleo teniendo claro qué tipo de información se pretende obtener: 

 

  1. Realizar una auditoría on page.
  2. Obtener muestra representativa de datos.
  3. Revisar las imágenes. 

 

Cuando el sitio web es muy grande, es recomendable restringir el rastreador a una subsección de URL para obtener una buena recolección de información. Esto hace que la cantidad de datos sean más manejables a la hora de exportar los archivos.

 

A continuación, expondremos esto con más detalle:

 

  • Para rastrear todo el website, incluidos todos los subdominios, debemos realizar algunos ajustes rápidos en la configuración previos a la araña que se enviará.

 

  • Screaming Frog viene configurado de manera predeterminada; solo rastrea el subdominio/dominio que entramos. En este caso, cualquier subdominio adicional que la araña encuentre será visto como un enlace externo. 

 

  • Para poder rastrear subdominios adicionales, debes cambiar la configuración en el menú Configuración de la araña. Al marcar la casilla “Crawl All Subdomains”, se asegurará de que la araña rastree todos los enlaces que encuentre hacia otros subdominios de tu sitio.

 

Rastreo web site

 

Rastreo con Screaming Frog

 

Ahora, si estamos empezando a crawlear desde una subcarpeta o subdirectorio específico y queremos que Screaming Frog rastree todo el sitio, marquemos la casilla “Crawl Outside of Start Folder”.

 

Crawl Outside

 

Crawl Outside

 

Recomendación: Para ahorrar tiempo y espacio en el disco, ten en cuenta los recursos que no necesitas en tu rastreo. Los sitios web enlazan con mucho más que sólo páginas. Desmarca los recursos de imágenes (si no las vas a analizar, recomendamos dejarlas pues son clave fundamental para el SEO y el WPO), CSS, JavaScript y SWF para reducir el tamaño del rastreo.

 

Rastreo

 

Rastreo

 

 

¿Cómo crawlear un solo subdirectorio con Screaming Frog?

Si deseamos limitar nuestro rastreo a una sola carpeta, simplemente introducimos la URL y cliqueamos el botón de inicio sin cambiar ninguna de las configuraciones predeterminadas. Si se ha modificado la configuración original (como se planteó en el punto anterior)y queremos que sea temporal, necesitamos restablecer la configuración predeterminada en el menú “File”, “Configuration” y “Clear Default Configuration”.

 

Crawlear subdirectorio

 

Para realizar el rastreo en una carpeta específica, pero queremos seguir rastreando el resto del subdominio, asegurémonos de seleccionar “Crawl Outside Of Start Folder” en la configuración de la araña antes de introducir tu URL.

 

Rastreo

 

¿Cómo crawlear un conjunto específico de subdominios o subdirectorios en Screaming Frog?

A la hora de limitar nuestro rastreo a un conjunto específico de subdominios o subdirectorios, podemos utilizar RegEx (Regular Expresions) para establecer esas reglas en los parámetros “Include” o “Exclude” del menú Configuración.

 

Reglas de exclusión de parámetros en Screaming Frog:

 

En este ejemplo, rastreamos todas las páginas de www.loscreativos.co,  excluyendo las páginas “Equipo” de cada subdominio.

Vamos a Configuración > “Exclude”; 

 

Exclude

 

Utilizamos una expresión regular con comodín para identificar las URLs de los parámetros que deseamos excluir. La herramienta nos da el ejemplo: 

http://www.example.com/exclude-folder/.*

 

Parámetros

 

Debemos probar la expresión regular para asegurarnos previo al rastro que las páginas verdaderamente se están excluyendo.

 

Expresión regular

 

Reglas de inclusión de parámetros en Screaming Frog:

Planteemos el ejemplo de querer rastrear la subcarpeta del equipo en www.loscreativos.co. Nuevamente, vamos a Configuración, esta vez  > “Include”; utilizamos la pestaña “Test” para probar algunas URL y nos aseguramos que el RegEx está configurado apropiadamente para la regla de inclusión.

 

Inclusión de parámetros

 

Inclusión de parámetros

 

 

Luego, se agregamos la URL específica de la carpeta y le damos clic en “Start”. Como se ve en la imagen, solo crawlea la carpeta específica:

 

Inclusión de parámetros

 

Esta es una excelente manera de rastrear sitios más grandes de manera sectorizada; de hecho, Screaming Frog recomienda este método si necesita dividir y optimizar un rastreo para un dominio más grande.

 

 

Generar únicamente lista de páginas con contenido del sitio web usando Screaming Frog

En la introducción a este post indicamos cómo filtrar HTML de todas las URLs crawleadas, pero cuando un sitio web es muy grande, es necesario que antes de crawlear el sitio se filtre para que solo nos arroje resultados de contenido.

 

Por defecto, Screaming Frog está configurada para rastrear absolutamente todas las URLs asociadas al website: imágenes, JavaScript, CSS, HTML, PDFs y archivos flash que la araña encuentre. 

 

Para rastrear sólo HTML, debemos deseleccionar cada uno de los ítems “Check Images”, “Check CSS”, “Check JavaScript” y “Check SWF” en el menú de configuración de la araña. En nuestro caso, pero eso dependerá del objetivo del crawleo, siempre rastreamos imágenes también.

 

Vamos a Configuration > Spider

 

Spider SEO

 

Desmarcamos CSS, JavaScript y SWF, para que el rastreo sea mucho más rápido y nos arroje únicamente contenido.

 

 Así es cómo deberías hacerlo:

 

Spider

 

Spider

 

Al ejecutar la araña con estos ajustes sin marcar nos proporcionará, en efecto, una lista de todas las páginas (e imágenes en este caso) de nuestro sitio.

 

Una vez finalizado el rastreo, vamos a la pestaña “Internal” y filtramos los resultados por “HTML”. 

 

Spider

 

Hagamos clic en “Export” y tendremos la lista completa para descargar en formatos CSV y .XLS.

 

Spider

 

Si tendemos a usar la misma configuración para cada crawl, Screaming Frog nos permite guardar su configuración.

 

File > Configuration > Save Current Configuration as Default.

 

Spider

 

Encontrar todos los subdominios de un sitio web con Screaming Frog

Hay diferentes maneras de encontrar todos los subdominios de un sitio.

 

Método 1 para encontrar subdominios de un sitio web: Solo con Screaming Frog

Usemos Screaming Frog para identificar todos los subdominios de un sitio determinado. Vamos  a Configuration > Spider, y asegurémonos que “Crawl all Subdomains” esté seleccionado, pues por defecto está desmarcado:

 

Subdominios

 

Subdominios

 

Al igual que el rastreo de todo nuestro sitio web, esto ayudará a rastrear cualquier subdominio al que esté vinculado dentro del rastreo del sitio. Sin embargo, no encontrará subdominios que sean huérfanos o que no estén vinculados, sino marcamos las siguientes opciones también:

 

Subdominios

 

Método 2 para encontrar subdominios de un sitio web: Footprints y Screaming Frog

En este método es necesario que usemos Google para identificar todos los subdominios indexados.

 

Utilizando un marcador que les dejaremos en este post y algunos footprints de búsqueda avanzada podemos encontrar todos los subdominios indexables de un dominio determinado. 

 

Usemos footprints como site: y -inurl. El primero restringe los resultados a nuestro dominio específico, el segundo restringe los resultados de búsqueda eliminando el dominio principal.

 

Vamos a poner el caso de la Universidad Tecnológica de Bolívar:

 

UTB

 

Si nos damos cuenta empezamos a ver una lista de subdominios que se han indexado en Google y que no contienen el dominio principal.

 

Ahora debemos utilizar el siguiente marcador:

 

SERP CSV

 

Para que nos funcione, debemos seleccionarlo y arrastrarlo a la barra de marcadores:

 

Pendiente de pantallazo una vez se monte el post

 

Una vez lo tengamos, solo es pararnos en la pestaña donde tenemos la búsqueda y darle al marcador

 

utb

 

Al darle clic, exporta de manera inmediata a un archivo de Excel .CSV

 

excel

 

Lo guardamos y seguimos con el siguiente punto.

 

Guardado

 

Aquí, debemos volver a Screaming Frog y cambiar el modo de rastreo que tiene la herramienta, pues por defecto está en Spider.

 

Spider

 

Debemos darle clic en List y automáticamente nos cambia el buscador

 

Buscador

 

Se puede usar de dos formas:

 

  1. Subir el archivo desde From a File

 

Para esto, debemos configurar brevemente el archivo que recién descargamos, eliminando títulos y filas que no sean URLs

 

File excel

 

Subimos el archivo:

 

Spider

 

Spider

 

Spider

 

Spider

 

  1. Entrar manualmente

Spider con Screaming Frog

 

Spider con Screaming Frog

 

Spider con Screaming Frog

 

Spider con Screaming Frog

 

Spider con Screaming Frog

 

 

Cómo crawlear un e-commerce o sitios grandes con Screaming Frog

Screaming Frog no fue construido originalmente para rastrear cientos de miles de páginas, pero gracias a algunas mejoras, se acerca cada día más.

 

En la versión 12.6, el crawler guarda automáticamente los rastreos en la base de datos. 

 

¡No entres en pánico cuando no veas el comando de Abrir!

 

Crawlear e-commerce

 

Esto permite acceder a ellos y abrirlos usando “File > Crawl Recent” en el menú de nivel superior.

 

Crawlear e-commerce

 

Aunque el uso de rastreos en la base de datos ayuda a Screaming Frog a manejar mejor los rastreos más grandes, ciertamente no es la única manera de rastrear un sitio grande.

  1. Primero, podemos aumentar la asignación de memoria de la araña, pasando de cuenta free a premium.
  2. Segundo, podemos desglosar el rastreo por subdirectorios o rastrear sólo ciertas partes del sitio utilizando la configuración de Include/Exclude. Así como se mencionó en ítems anteriores.
  3. Tercero, podemos elegir no rastrear imágenes, JavaScript, CSS y flash. Al desmarcar estas opciones en el menú de Configuración, ahorrando memoria rastreando sólo HTML. También se explica en el punto anterior.

Adicional, hasta hace poco, la araña SEO de Screaming Frog podría haber hecho una pausa o haberse bloqueado al rastrear un sitio grande, es normal que pase cualquier aplicativo tecnológico. 

, con las últimas actualizaciones, el almacenamiento de la base de datos como configuración predeterminada, recupera las URL´s que no alcanzó a visibilizar en la herramienta:

 

Herramienta

 

Aquí, ponemos el ejemplo de pausar el crawleo de LosCreativos.Co en el 25%, alcanzando un rastreo de 39 URL´s, al ir a ejecutar en el menú Bulk Export > Queued URLs.

 

Crawleo

 

Se podrá descargar el restante:

 

Descargar crawleo

 

Excel del crawleo

 

Para este caso, nos descar 139 URLs adicionales a las 39 ya crawleads en la herramienta.

 

Crawlear un sitio alojado en un servidor antiguo o rastrear una página sin bloquear el servidor con Screaming Frog 

En algunos casos, es posible que los servidores más antiguos no puedan manejar el número predeterminado de solicitudes de URL por segundo. De hecho, recomendamos incluir un límite en el número de URLs a rastrear por segundo para ser cuidadosos con el servidor de un sitio, por si acaso. 

Es mejor informar a un cliente cuando se planea rastrear un sitio web, es posible que tengan protecciones contra los agentes de usuario desconocidos. De ser así, puede que necesitemos hacer una lista blanca de la IP o Agente de Usuario antes de que rastree el sitio. En el peor de los casos, puede ser que envíe demasiadas solicitudes al servidor y que bloquee el sitio inadvertidamente.

Para cambiar la velocidad de rastreo, cambiemos “Velocidad” en el menú de configuración y, en la ventana emergente, seleccionamos el número máximo de hilos que deben ejecutarse simultáneamente. En este menú, también se puede elegir el número máximo de URLs solicitadas por segundo. 

Configuration > Speed 

 

Spider

 

Spider

 

Cuidado a lo siguiente:

 

Si nos encontramos con que el rastreo está resultando con muchos errores del servidor (status code 5xx), debemos ir a la pestaña “Advanced” en el menú de Configuración de la Araña, y aumentamos el valor del “Response Timeout” y de los “5xx Response Retries” para obtener mejores resultados.

 

Configuration > Spider > Advanced

 

Configuración

 

Configuración

 

Cómo crawlear un sitio que requiere cookies con Screaming Frog 

 

Aunque los robots de búsqueda no aceptan cookies, si estamos rastreando un sitio y necesitamos permitir las cookies, simplemente seleccionamos “Allow Cookies” en la pestaña “Advanced” del menú de configuración de la araña.

 

Configuration > Spider > Advanced

 

Cookies

 

Crawlear usando un agente de usuario diferente con Screaming Frog

 

Para rastrear usando un agente de usuario diferente, seleccionemos “User Agent” en el menú “Configuration”, luego selecciona un robot de búsqueda en el menú desplegable o escriba las cadenas del agente de usuario que desees.

 

Configuration > User Agent 

 

Usuario diferente

 

Usuario diferente

 

Dado que con el First Index, ahora Google prioriza los dispositivos móviles, intentemos rastrear el sitio como Google Bot Smartphone, o modificar el User-Agent para que sea una imitación de Googlebot Smartphone. 

 

Esto es importante básicamente porque al rastrear el sitio imitando el agente de usuario de Google Bot para Smartphones puede ayudar a determinar cualquier problema que tenga Google al rastrear y mostrar el contenido de nuestro sitio web.

 

 

Rastrear páginas que requieren autentificación con Screaming Frog

Cuando la araña de Screaming Frog se encuentra con una página protegida por contraseña, aparece un cuadro emergente en el que puedes introducir el nombre de usuario y la contraseña. 

 

La autenticación basada en formularios es una característica muy poderosa y puede requerir la representación de JavaScript para funcionar eficazmente. 

 

La autenticación basada en formularios debe ser utilizada con moderación, y sólo por usuarios avanzados. El rastreador está programado para hacer clic en cada enlace de una página, por lo que podría resultar en enlaces para cerrar la sesión, crear mensajes, o incluso eliminar datos.

 

Para administrar la autenticación, ingresamos en Configuration > Authentication.

 

Para desactivar las solicitudes de autenticación, desmarcamos “Standards Based Authentication” en la ventana “Authentication” del menú de Configuración. 

 

Autenticación

 

Autenticación

 

Crawleo de enlaces internos de un sitio web usando la herramienta Screaming Frog

En este apartado encontraremos toda la información sobre todos los enlaces internos y externos de nuestro sitio web (Anchor text, texto de anclaje, enlaces por página, enlaces rotos, entre otros).

 

Información sobre todos los enlaces internos y externos de un sitio web

Si no necesitamos comprobar las imágenes, JavaScript, flash o CSS del sitio, desmarcamos estas opciones en el menú de Configuración de la araña para ahorrar tiempo de procesamiento y memoria. (Ver configuración de Screaming Frog).

 

Una vez que la araña haya terminado el crawleo, usemos el menú de “Bulk Export” para exportar un CSV de “All Links”. Esto le proporcionará todas las ubicaciones de los enlaces, así como el correspondiente a los anchor text y de más.

 

Bulk export

 

Bulk export

 

Bulk export

 

Para un sitio grande, esta exportación a veces puede tardar minutos en ejecutarse.

 

Para un recuento rápido del número de enlaces en cada página, vaya a la pestaña “Internal” y ordene por “Outlinks”. 

 

Empiece a revisar los outlinks de mayor a menor, puede que en algunos contenidos exageremos en outlinks y saquemos sin necesidad a nuestros usuarios del portal.

 

Outlinks

 

Outlinks

 

Cómo encontrar enlaces internos rotos en una página o sitio web con Screaming Frog

Si no necesitamos comprobar JavaScript, flash o CSS del sitio, desmarcamos estas opciones en el menú de Configuración de la araña para ahorrar tiempo de procesamiento y memoria. (Ver configuración de Screaming Frog).

 

Una vez que la araña haya terminado de crawlear, ordena los resultados de la pestaña “Internal” por “Status Code”. Cualquier 404, 301 u otro código de estado estará fácilmente visible.

 

Status Code

 

Al hacer clic en cualquier URL individual de los resultados del rastreo, veremos que la información cambia en la ventana inferior del programa. 

 

Status Code

 

Al hacer clic en la pestaña “In Links” de la ventana inferior, encontraremos una lista de páginas que se enlazan con el URL seleccionada, así como el texto de anclaje y las directivas utilizadas en estos enlaces. Puedes utilizar esta función para identificar las páginas en las que es necesario actualizar los enlaces internos.

 

Status Code

 

Para exportar la lista segmentada y filtrada con datos específicos de la URL para enlaces rotos o redirigidos, usemos el menú “Bulk Export”. 

 

Nos desplazamos hacia abajo hasta los códigos de respuesta, y miramos las siguientes opciones de informes:

 

  • No Response Inlinks
  • Redirection (3xx) Inlinks
  • Redirection (JavaScript) Inlinks
  • Redirection (Meta Refresh) Inlinks
  • Client Error (4xx) Inlinks
  • Server Error (5xx) Inlinks

 

Bulk Export

 

Cómo encontrar enlaces salientes rotos en una página o sitio (o todos los enlaces salientes en general) con Screaming Frog

Si no necesitamos comprobar las imágenes, JavaScript, flash o CSS del sitio, desmarcamos estas opciones en el menú de Configuración de la araña para ahorrar tiempo de procesamiento y memoria. (Ver configuración de Screaming Frog).

 

Una vez que la araña termine de rastrear, hacemos clic en la pestaña “External” en la ventana superior, ordenamos por “Status Code” y podremos encontrar fácilmente URL´s con códigos de estado distintos a 200. 

 

External

 

Al hacer clic en cualquier URL individual de los resultados del rastreo y luego en la pestaña “In Links” de la ventana inferior, encontraremos una lista de páginas que apuntan a la URL seleccionada. Podemos utilizar esta función para identificar las páginas en las que es necesario actualizar los enlaces salientes.

 

External

 

Para exportar la lista completa de enlaces salientes, hacemos clic en “External Links” en la pestaña “Bulk Export”.

 

External

 

Ahora bien, para obtener una lista completa de todas las ubicaciones y el anchor text de los enlaces salientes, seleccionamos “All Outlinks” en el menú “Bulk Export”. 

 

External

 

Podemos incluir en el informe todos los enlaces salientes de nuestros subdominios o excluir una página particular en un apartado anterior: Ver Cómo crawlear un conjunto específico de subdominios o subdirectorios en Screaming Frog.

 

Cómo encontrar los enlaces que están siendo redirigidos en un sitio web

Cuando la araña termine de rastrear, seleccionamos la pestaña “Response Codes” de la interfaz principal y filtramos por “Status Code”.

 

Response codes

 

Debido a que Screaming Frog utiliza ReGex -Expresiones Regulares- para la búsqueda, envía los siguientes criterios como filtro: 404/301|302|307. 

Ya sabemos que para este caso solo nos debe interesar los 301, 302 y 307, puesto que son los enlaces que regresaron con algún tipo de redireccionamiento, ya sea que el contenido se haya movido, encontrado y redirigido permanentemente, o se haya redirigido temporalmente debido a la configuración de HSTS (esta es la causa probable de los 307 redireccionamientos en Screaming Frog). 

Ordenemos entonces por “Status Code” y podremos filtrar los resultados por tipo.

 

Response codes

 

Redirection

 

Damos clic en URL y luego en la pestaña “Inlinks” de la ventana inferior para ver todas las páginas en las que se utiliza el enlace de redireccionamiento.

 

Inlinks

 

Si exportamos directamente desde esta pestaña, sólo veremos los datos que se muestran en la ventana superior (la URL original, el código de estado y el lugar al que se redirecciona).

Cuidado que hay diversas formas de exportar datos y cada uno muestra datos distintos:

1. Desde la parte superior descarga las URL´s filtradas del visualizador principal y las cuales responden a la información general del contenido. 

 

Export

 

Descargar-datos

 

2. Desde la parte inferior descarga los datos del visualizador de URL´s inferior y muestra La URL de origen y la URL final de la redirección.

 

Export

 

Descargas

 

3. Desde del Menú principal de Reports da la opción de diferentes descargas por filtro:

 

Reports

 

Guardar-datos

 

Screaming Frog

 

Esta trae la información más completa y, por lo general, luego toca filtrar nuevamente. Es cuestión de saber qué datos se necesitan.

  1. Finalmente. para exportar la lista completa de páginas que incluyen enlaces de redirección o lo que queramos, tendremos ir al menú principal, “Bulk Export” elegir y dar clir. Esto devolverá un CSV que incluye la ubicación de todos los enlaces redirigidos con su respectivo código de respuesta.

Bulk Export

 

Bulk Export

 

Redirection

 

Las diferencias entre las descargas son sutiles, pero responden diversas necesidades. Es cuestión de práctica y tener objetivos claros.

 

Crawleo de contenido de un sitio web con Screaming Frog

Cómo identificar las páginas con poco contenido 

 

Después de que la araña haya terminado de rastrear, vamos a la pestaña “Internal” y filtramos por HMTL.

 

Filtrado

 

Luego nos desplazamos a la derecha hacia la columna “Word Count”. Ordenamos la columna de de bajo a alto y encontraremos las páginas con más bajo contenido de texto. 

 

Word count

 

Podemos arrastrar y soltar la columna “Word Count” a la izquierda para visualizar mejor los valores de acuerdo a la vista de la URL a analizar, pues esta columna está por defecto tirada muy hacia la derecha.

 

Word Count

 

Word Count

 

Para descargar en CSV, damos clic en “Export” del visualizador principal de la pestaña “Internal”.

 

Export

 

Aunque el método de recuento de palabras que hemos mencionado cuantifica la cantidad de texto real de la página de aterrizaje, todavía no hay forma de saber si el texto encontrado es sólo el nombre de los productos o si el texto está en un bloque de copia optimizado por palabras clave en texto narrativo, por lo que es preciso entrar a analizar con otras herramientas.. 

 

Crawlear una lista de los enlaces de imágenes de un sitio web con Screaming Frog

Si ya hemos rastreado todo un sitio o una subcarpeta, para lo que más arriba del post hemos explicado a nivel de detalle, sólo tenemos que seleccionar la opción en el menú del visualizador superior y luego hacer clic en la pestaña “Images” 

Nota: Recordemos que, si en la configuración de la herramienta desmarcamos “images”, la araña no rastreará este ítem de imágenes.

Images

 

Luego, al darle clic a cada URL, en la ventana inferior se podrá visualizar los enlaces hacia donde redirecciona cada una.

 

Images

 

Si tenemos alguna duda con una imagen, pues no recordamos por su título o URL, podemos darle clic derecho y abrir en el navegador.

 

Screaming Frog

 

Los Creativos

 

Cómo encontrar imágenes a las que les falta el texto alternativo o imágenes que tienen un texto alternativo muy largo 

Recordemos que debemos asegurarnos que “Check Images” esté seleccionado en el menú de configuración de rastreo de la araña. Una vez que la araña haya terminado de rastrear, vamosa la pestaña “Images”’ y filtramos por  “Missing Alt Text” o “Alt Text Over 100 Characters”, dependiendo lo que queramos revisar, sea por ausencia de textos alternativos o por el exceso de texto en ellos…

 

Screaming frog

 

Podemos encontrar las páginas dónde se encuentra las imágenes haciendo clic en la pestaña “Imagen Details” en la ventana inferior. Las páginas donde se alojan aparecerán en la columna “From”.

 

Screaming Frog

 

Los Creativos Agencia de Seo

 

Agencia SEO Medellín

 

Finalmente, si preferimos trabajar directamente sobre un CSV, usamos el menú “Bulk Export” para exportar “All Images” para ver la lista completa de imágenes o “Images Missing Alt Text Inlinks”, para revisar las imágenes faltantes por texto alternativo o problemas asociados con el texto alternativo. Allí nos descargar los datos de dónde se encuentran y si enlazan, a dónde enlazan.

 

Screaming Frog

 

Además, utiliza la barra lateral derecha para navegar a la sección de las imágenes del rastreo; aquí podemos encontrar resumen de porcentajes de manera rápida.

 

Screaming Frog

 

Screaming frog

 

Screaming frog

 

Cómo encontrar todos los archivos CSS y JavaScript de un sitio web con Screaming Frog

Lo primero, es que debemos seleccionar en el menú de configuración de la araña “Crawl” y “Store” para el campo “CSS” y “JavaScript”.

Configuration > Spider

 

Screaming Frog

 

Software de SEO

 

Crawleamos el sitio completo y filtramos por el menú del visualizador principal por “Internal”. Allí filtramos por CSS o JavaScript según sea el caso.

 

Programa de SEO

 

Cómo identificar todos los plugins de jQuery usados en el sitio y en qué páginas se están usando con Screaming Frog

Tal y como lo mencionamos en el punto inmediatamente anterior, es necesario cerciorarnos que “Check JavaScript” esté seleccionado en el menú de configuración de la araña. 

Una vez la araña haya terminado de rastrear, filtramos la pestaña “Internal” por “JavaScript”.

 

Software de SEO

 

Luego buscamos en la columna “Address”.

 

Programa para hacer SEO

 

Esto proporcionará una lista de archivos de plugins. Posteriormente, miramos en ‘InLinks’ del menú inferior para visualizar en esta ventana las URL´s donde se usan los archivos, esta información están ubicadas en la columna “From”.

 

Screaming Frog

 

Recordemos que también se puede descargar en CSV para trabajar el archivo en el escritorio. Para este caso es recomendable descargar cuando se trata de un sitio web grande. Este ejemplo que mostraremos se hizo con la página de la Alcaldía de Medellín con un 45% del total de la página rastreada:

 

Programa para SEO Medellín

 

Descargamos en el menú principal “Bulk Export” y “All links”

 

Programa para SEO

 

SEO en Medellín

 

Bull Export > All Links

Luego abrimos el CSV:

 

SEO en medellín

 

Nos damos cuenta que son 234.570 filas:

 

Seo colombiano

 

Damos en el teclado CTRL + B, ingresamos “jQuery”

 

Análisis SEO

 

Nos encuentra el inicio de las Jquery:

 

SEO Envigado

 

Pero también podemos:

1.Señalar toda la columna:

 

Screaming Frog

 

2. Agregar filtro:

 

Agencia SEO

 

3. Desmarcar todas las casillas:

 

Seo en Medellin

 

Screaming frog

 

4. Buscar jQuery y marcar todos los resultados:

 

Screaming frog

 

Y para este caso, filtra 28.371 resultados de los 234.570 URL´s crawleadas, un poco más del 20% del total. Todo en menos de 5 minutos.

 

Agencia SEO

 

Tengamos en cuenta que no todos los plugins de jQuery son malos para el SEO. Si vemos que un sitio web utiliza jQuery, la mejor práctica es asegurarse que el contenido que se indexe se incluya en la fuente de la página y sirva cuando se cargue la página, no después. Si aún no estamos seguros, busquemos el plugin en Google para ampliar la información sobre su funcionamiento.

Cómo encontrar dónde está embebido contenido flash en un sitio web con Screaming Frog

Aunque ya  sabemos que Flash no es soportado por ningún navegador y, Adobe hace mucho rato no le da soporte, siguen existiendo portales que usan esta tecnología para exponer su contenido multimedia. Si nos topamos con una de estas páginas o por el contrario queremos revisar que nuestros sitio web no tenga este tipo de archivos, es posible rastrearlos. Este punto que mostramos es realmente algo que debe ser usado para resaltar si hay archivos flash en un sitio, ya sea para eliminar el contenido o pasarlo a otro formato.

En el menú de configuración de la araña, debemos seleccionar “Check SWF” antes de crawlear. 

Configuration > Spider

 

Programa para SEO

 

Para este ejemplo, es de reconocer que nos tocó mucho trabajo encontrar webs con múltiple cantidad de flash al interior de su contenido. Para este caso, encontramos el sitio web http://franciscanos.co/

Cuando el rastreo haya terminado, filtramos los resultados en la pestaña “Internal” por “Flash”.

 

Programa de SEO

 

Vemos cómo la herramienta pasa de mostrarnos 2.359 URLs crawleadas a 6, todas con contenido .SWF.

 

SEO en Medellín

 

Al darle clic en la URL e irnos al menú inferior  “Inlinks”, podemos ver la columna “From” donde está alojado el contenido elaborado en flash.

 

SEO Medellín

 

Screaming frog

 

Este método sólo encontrará archivos .SWF que estén enlazados en una página. Si el flash es introducido a través de JavaScript, no aplica esta opción y se necesitará usar un filtro personalizado desde el buscador.

 

Cómo encontrar cualquier PDF que esté enlazado en el sitio web con Screaming Frog

Una vez la araña termine de rastrear, filtramos los resultados en la pestaña “Internal” por “PDF”.

 

Agencia SEO

 

Medellín SEO

 

Luego, en el menú inferior “Inlinks”, cuando seleccionamos la URL nos muestra en la columna “From” dónde está enlazado el PDF.

 

Screaming Frog

 

Para descargar todos los enlaces de los PDF´s asociados dando clic en el botón “Export” del visualizador principal.

 

Agencia de SEO

 

SEO Medellín

 

Todo sobre SEO

 

Si por el contrario, quiero descargar la información del enlace, pero también donde está enlazado, deberemos seleccionar toda la lista de PDFs, 

 

Empresa de SEO

 

y descargar desde el “Export” del visualizador inferior

 

screaming frog

 

Agencia SEO

 

Agencia de SEO

 

Cómo crawlear páginas para encontrar botones para compartir en redes sociales (Facebook, Twitter e Instagram) por medio de Screaming Frog

Para encontrar las páginas que contienen botones para compartir en redes sociales, tendremos que establecer un filtro personalizado antes de ejecutar la araña. Para configurar este filtro, vamos al menú principal

Configuration > Custom > Search

 

Agencia de SEO

 

Ahí, introducimos el fragmento de código de la fuente de la página que, para este ejemplo, lo realizaremos con aquellas páginas que contengan la opción de “Compartir” de Facebook, por lo que se creó un filtro para facebook.com/plugins/like.php.

 

Screaming frog

 

Estos filtros los podemos visualizar filtrando en el menú del visualizador principal por “Custom Search”

 

Seo en medellín

 

SEO Medellín

 

Una vez estemos ahí, filtramos por el contenedor que configuramos.

 

Cómo encontrar las páginas que están usando iframes en un sitio web

Funciona exactamente igual que para el punto anterior, únicamente que personalizamos el contenedor con el filtro: “<iframe” antes de ejecutar la araña.

 

Agencia de SEO

 

Cómo encontrar páginas que contienen contenido de video o audio embebido – incrustado

Siguiendo la línea de los dos puntos anteriores, podemos encontrar páginas con contenido de vídeo o audio incrustado, estableciendo un filtro personalizado para un fragmento del código de incrustación de Youtube, HearThis, SoundCloud, Vimeo y otras plataformas que permiten embeber contenido:

 

Custom Search

 

Agencia de SEO en Medellín

 

Para un video embebido puntual:

1.Saber cuál es el video desde la plataforma:

 

Agencia de SEO

 

2. Revisar el código de embebido:

 

Screamig Frog

 

Screamig Frog

 

Screamig Frog

 

Para este caso es: /embed/TNyIS8b4HdM”

3. Introducirlo en el contenedor:

 

Agencia de SEO

 

Empresa de SEO

 

4. Poner a correr la araña.

5.  Filtrar en el menú superior por Custom Search

 

Screaming frog

 

6. Filtrar por el contenedor en particular:

 

Screaming Frog

 

Screaming Frog

 

Screaming Frog

 

Cómo identificar páginas con títulos largos o cortos, y lo mismo con meta descripciones y URLs

 

Cuando la araña termine de crawlear, vamos a la pestaña del menú del visualizador “Page Titles” y filtramos por “Over 60 Characters” para ver los títulos de páginas que son demasiado largos. 

 

Agencia SEO

 

Para los que son muy cortos le damos en “Before 30 Characters”

 

Screaming Frog

 

Podemos hacer lo mismo en la pestaña “Meta Description” o en la pestaña “URL”, dependiendo lo que estemos buscando optimizar:

 

Seo en medellín

 

Para URLs demasiado largas, filtramos por “Over 115 Characters”

 

Agencia SEO Medellín

 

Para el caso de meta descriptions se puede filtrar por más de 150 caracteres, menos de 70 caracteres o, en su defecto y dependiendo cómo estemos acostumbrados a trabajar, por más de 1.010 píxeles o menos de 400 píxeles.

 

Agencia SEO

 

Cómo encontrar títulos de páginas, meta descripciones o URLs duplicadas

Una vez la araña termine de crawlear, vamos a la pestaña del menú del visualizador principal”Page Titles”, y luego debemos filtrar por “Duplicate”.

 

Screaming Frog

 

Lo mismo podemos hacer para el caso de las meta descripciones o las URLs:

 

Seo en medellín

 

Especialistas en SEO

 

Para el caso de URL´s:

 

Screaming Frog

 

Cómo encontrar contenido duplicado y/o URLs que necesitan ser reescritos, redireccionados o canonicalizados

Después que la araña haya terminado de rastrear, debemos empezar a filtrar dependiendo las acciones que queremos lograr. Vamos a empezar con las URL´s.

Menú del visualizador principal > URL

 

Software para SEO

 

Con los filtros  “Underscores”, “Uppercase” or “Non ASCII Characters” podremos ver las URL´s que potencialmente podrían ser reescritas bajo una estructura más estándar. 

 

Agencia de seo

 

Al filtrar por “Duplicate” veremos todas las páginas que tienen múltiples versiones de URL.

 

Agencia de seo

 

Asimismo, al filtrar por ‘Parameters”’ veremos las URLs que están parametrizadas.

 

Screaming Frog

 

Además, si vamos a la pestaña “Internal” del menú del visualizador principal y filtramos por “HTML”, al desplazarnos en la columna “Hash” en el extremo derecho, veremos una serie única de letras y números para cada página. 

 

SEO en Medellín

 

Si hace clic en “Export”, puedes utilizar el formato condicional en Excel para resaltar los valores duplicados en esta columna, mostrando en última instancia las páginas que son idénticas y necesitan ser abordadas.

 

Los Creativos SEO

 

Abrimos el archivo de Excel e identificamos la columna “Hash”

 

Compañía de SEO

 

Luego eliminamos todas las columnas a su derecha para poder trabajar de manera más fácil. Nos paramos sobre la celda derecha del primer dato:

 

Agencia en Medellín de SEO

 

y ponemos la siguiente fórmula condicional: =+SI(AQ3=AQ2;1;0) (pongamos cuidado, porque “AQ” son los indicativos de la columna. Si se modifican las columnas de la izquierda, claramente se modifican los parámetros). Esta función lo que nos indica es que si las celdas AQ3 y AQ4 son iguales, se marca un 1, si son diferentes, se marca un 0.

 

Screaming Frog

 

Luego se arrastra la fórmula hasta el final de los datos y se nos marca con 1 las URLs con parámetros iguales:

Agencia SEO

 

SEo en medellín

 

Cómo identificar todas las páginas que incluyen meta directivas: nofollow, noindex, noodp, canonical, entre otras

Al finalizar el crawleo de la araña, hacemos clic en la pestaña “Directives” del menú del visualizador principal. 

 

Screaming frog

 

Para ver el tipo de directiva, simplemente nos desplazamos hacia la derecha y vemos las columnas que nos arrojan datos o simplemente o usamos el filtro para encontrar cualquiera de las siguientes etiquetas:

 

  • index
  • noindex
  • follow
  • nofollow
  • noarchive
  • nosnippet
  • noodp
  • noydir
  • noimageindex
  • notranslate
  • unavailable_after
  • refresh

Screaming frog

 

Cómo verificar que mi archivo robots.txt funciona correctamente

Por defecto, la herramienta Screaming Frog cumplirá con las configuraciones que cada sitio web marque desde el archivo robots.txt. Como prioridad, las arañas seguirán las directivas hechas específicamente para el agente de usuario de Screaming Frog.

 

Screaming Frog

 

Screaming Frog

 

Si no hay directivas específicas para el agente de usuario de Screaming Frog, entonces la araña seguirá cualquier directiva para Googlebot, y si no hay directivas específicas para Googlebot, la araña seguirá las directivas globales para todos los agentes de usuario.

La araña sólo seguirá un conjunto de directivas, por lo que las reglas establecidas específicamente para Screaming Frog sólo seguirá esas reglas, y no las reglas de Google Bot ni ninguna regla global.

Si deseamos desea ignorar el robots.txt, simplemente seleccionamos esa opción en la configuración de la araña.

Configuration > Robots.txt > Settings

 

SEO Spider

 

Cómo encontrar o verificar los datos estructurados u otros microdatos en una página web

Para encontrar todas las páginas que contienen datos estructurados o cualquier otro microdato, es necesario utilizar filtros personalizados. Simplemente hacemos clic en el menú principal “Configuration”, “Custom”, “Search” y en el menú de configuración introducimos la huella que está buscando.

Configuration > Custom > Search

 

Seo en medellín

 

Screaming Frog

 

Para encontrar todas las páginas que contienen el marcado de datos de Schema, simplemente añadimos el siguiente fragmento de código a los filtros personalizados: itemtype=http://schema.org

 

Screaming Frog

 

Luego se crawlea el sitio web y se puede visualizar las URLs con marcado de datos desde Schema en la opción del menú del visualizador principal “Structured Data” o “Custom Search”

 

Seo Spider

 

En Structured Data nos presenta un menú particular con porcentajes de filtrado

 

Seo en Medellín

 

Mientras que por Custom Search podemos filtrar por los contenedores que agregamos manualmente.

 

Screaming frog

 

Es de resaltar que este crawleo soloe s posible si se agregó el marcado de datos desde el código fuente de la página o de marcado HTML, si se realizó el marcado de datos por JavaScript o plugin no nos crawlea.

 

 

Crawleo de sitemap de un sitio web con Screaming Frog

 

Cómo crear un Sitemap XML a partir de un sitio web crawleado

Una vez que la araña haya terminado de rastrear el sitio web, hacemos clic en el menú “Sitemaps” y seleccionamos “XML Sitemap”.

 

Screaming frog

 

Una vez que haya abierto los ajustes de configuración del Sitemap XML, podremos incluir o excluir páginas por códigos de respuesta, última modificación, prioridad, frecuencia de cambio, imágenes, entre otros. Recordemos que por defecto, Screaming Frog sólo incluye URLs 2xx.

 

SEO en medellín

 

Lo ideal sería que el sitemap XML incluyera sólo una versión de estados 200, única y preferida (canónica) de cada URL, sin parámetros ni otros factores de duplicación. Una vez que se hayan realizado los cambios, pulsamos “Siguiente”. El archivo del mapa de sitio XML se descargará en nuestro dispositivo y nos permitirá editar la convención de nombres como deseemos.

 

SEO medellín

 

Seo medellín

 

Creación de un sitemap XML mediante la carga de URLs

La herramienta Screaming Frog también nos permite crear sitemaps XML mediante la carga de URLs de un archivo existente, ya sea pegando manualmente o importando el archivo.

Lo primero es cambiar ir a “Mode”  del menú principal y luego seleccionar “List. Inmediatamente las opciones de crawler se modificarán.

 

screaming frog

 

Luego cambiar el parámetro dependiendo la acción que vayamos a ejecutar, para esto damos clic en “Upload”.

 

screaming frog

 

Si es mediante un archivo importado “From a File”, o “Enter Manually” para copiar y pegar las URLs. Una vez se crawlean las URLs, seguiremos el proceso del punto inmediatamente anterior.

 

Cómo comprobar un Sitemap XML existente

Podemos descargar de manera fácil un mapa del sitio XML existente o el índice, para comprobar si hay errores o discrepancias de rastreo.

Para esto vamos al menú superior y damos clic en”Mode”, luego seleccionar “List”.

 

screaming frog

 

A continuación, hacemos clic en “Upload”, del buscador principal de la herramienta, elegimos “Download Sitemap o Download Sitemap Index”, introducimos la URL del sitemap e iniciamos el rastreo. 

Para este ejemplo usaremos el sitemap de www.loscreativos.co: https://loscreativos.co/sitemap_index.xml

 

Agencia de SEO

 

Screaming Frog

 

Screaming Frog

 

Screaming Frog

 

Aquí ya podemos entrar a comprar un sitio web desde el rastreo directo desde su sitemap.

 

Identificación de páginas perdidas dentro del Sitemap XML

Podemos arreglar la configuración del rastreo para descubrir y comparar las URLs de los sitemaps XML con las URL del rastreo de un sitio web.

Vamos al menú principal pestaña de “Configuration”, luego “Spider”, y la herramienta nos da varias opciones para los sitemaps XML: “Auto Discover XML Sitemap via robots.txt” o introducir manualmente el enlace del sitemap XML en el cuadro que se habilita luego de marcar la casilla “Crawl These Sitemap”. 

 

Agencia de SEO

 

Es importante que tengamos en cuenta que si el archivo robots.txt del sitio web no contiene adecuadamente los enlaces de destino para todos los sitemaps XML, estos se deberán introducir manualmente.

Una vez que hayamos actualizado la configuración de rastreo de los sitemaps XML, vamos a “Crawl Analysis” del menú principal y damos clic en “Configure”

 

Seo en medellín

 

Aquí, nos aseguramos que la casilla “Sitemaps” esté marcada.

 

Screaming frog

 

Debemos realizar el rastreo completo del sitio, volver a “Crawl Analysis” y pulsar “Start”.

 

Seo en medellín

 

Una vez completado el análisis de rastreo, podrás ver cualquier discrepancia de rastreo, como las URL que se detectaron dentro del rastreo de sitio completo y que faltan en el sitemap XML.

Para ver estas URLs, debemos filtrar en el menú del visualizador principal por “Sitemaps”

 

Agencia de seo

 

Luego filtrar por “URLs not in Sitemap”.

 

Screaming frog

 

Aquí también encontraremos filtros para las URLs que se encuentran en el Sitemap, URLs marcadas como no indexables:

 

Screaming frog

 

e incluso URLs que aparecen en múltiples Sitemaps:

 

Seo en medellín

 

Solución de problemas generales para un sitio web

 

Cómo identificar por qué ciertas secciones del sitio web no están siendo indexadas o clasificadas

La pregunta para muchas personas que recién empiezan en el mundo del SEO es ¿Por qué ciertas páginas no están siendo indexadas? Lo primero es que nos aseguremos que no fueron intencionadamente marcadas así desde el archivo robots.txt o etiquetadas como noindex. 

Luego, que las arañas puedan llegar a cada una de las páginas revisando sus enlaces internos, pues cuando un portal web que no vincula internamente sus páginas se les denomina como una página huérfana.

 

Identificar cualquier página huérfana dentro de un sitio web con Google Analytics:

Vamos a “Configuration” del menú principal y luego a “Spider”.  Aquí verifiquemos que estén marcadas las opciones correspondientes al sitemap.

Luego, vamos al menú principal nuevamente: “Configuration + API Access” + “Google Analytics”:

 

Screaming frog

 

Mediante esta API podemos obtener datos de análisis para cuentas y vistas específicas. Solo es conectar con una nueva cuenta:

 

Seo en medellín

 

Permitir los datos de acceso de la herramienta Screaming Frog

 

Seo en medellín

 

Seleccionar la cuenta con la que vamos a trabajar:

 

Screaming frog

 

y aceptar.

También podemos ir a “General” dentro de la “API Access de Google Analytics”,

 

Spider Screaming Frog

 

Screaming frog

 

Y marcar “Crawl New URLs Discovered In Google Analytics” si queremos que las URLs descubiertas por Google Analytics se incluyan en el crawleo completo de nuestro sitio web. Si esto no está habilitado, sólo podremos ver las nuevas URLs extraídas de Google Analytics dentro del informe de páginas huérfanas.

 

Seo en medellín

 

Rastreamos todo el sitio web. Una vez que el rastreo se haya completado, vamos a “Crawl Analysis” y “Start” y esperamos a que termine.

 

Seo en medellín

 

Para visualizar todas las URLs huérfanas es necesario ir a verlas una a una en cada una de las pestañas alojadas en el menú del visualizador principa (Analytics o Search Console, dependiendo el caso):

 

screaming frog

 

Filtramos por “Orphan URLs” en el menú del visualizador principal del “Analytics”

 

seo medellín

 

 

Identificar cualquier página huérfana dentro de un sitio web con Google Search Console:

Vamos al menú principal “Configuration + API Access + Google Search Console”

 

scremiang frog

 

Repetimos el tema de logueo y autorización como con Google Analytics:

 

seo en medellín

 

Seo en medellín

 

Usando la API podemos obtener los datos del Google Search Console para una cuenta específica y rastrear desde la herramienta Screaming Frog. Para encontrar páginas huérfanas podemos buscar URLs que reciban clics e impresiones que no estén incluidas en el rastreo.

 

screaming frog

 

También podemos ir a “General” dentro de la “API Acces de Google Search Console” 

 

search console

 

y marcar “Crawl New URLs Discovered In Google Search Console” si queremos que las URLs descubiertas por Google Search Console se incluyan en el crawleo completo de nuestro sitio web. Si esto no está habilitado, sólo podremos ver las nuevas URLs extraídas de Google Analytics dentro del informe de páginas huérfanas.

 

seo en medellín

 

Rastreamos todo el sitio web. Una vez que el rastreo se haya completado, vamos a “Crawl Analysis” y “Start” y esperamos a que termine.

 

screaming frog

 

Para visualizar todas las URLs huérfanas es necesario ir a verlas una a una en cada una de las pestañas alojadas en el menú del visualizador principa (Analytics o Search Console, dependiendo el caso):

 

seo en medellín

 

Filtramos por “Orphan URLs” en el menú del visualizador principal del “Search Console”

 

screaming frog

 

Para descargarlas en un archivo CSV de Excel, vamos a la pestaña “Reports” del menú principal y damos clic en “Orphan Pages”.

 

Seo en medellín

 

Screaming frog

 

Screaming frog

 

Aquí descarga tanto para Google Analytics como para Google Search Console.

 

Cómo encontrar páginas de carga lenta en un sitio web

Lo primero es poner a crawlear un el sitio web que deseamos analizar. Una vez la araña haya terminado de rastrear, vamos a la pestaña “Response Codes” del menú del visualizador principal y ordenemos por la columna “Response Time”, organizando de alto a bajo para encontrar páginas que tengan una velocidad de carga lenta.

 

Seo en medellín

 

screaming frog

 

 

Reescritura de URLs para un sitio web

 

Cómo encontrar y eliminar la identificación de sesión y otros parámetros de URLs rastreadas

Para identificar las URLs con identificadores de sesión y otros parámetros, simplemente rastreamos un sitio con la configuración predeterminada de Screaming Frog. Cuando la araña termine, hacemos clic en la pestaña “URL” del menú del visualizador principal y filtramos a “Parameters” para ver todas las URL que incluyen parámetros.

 

Screaming frog

 

Screaming frog

 

Para eliminar los parámetros que se muestran para las URLs que rastreamos, seleccionamos “URL Rewriting” ubicada en el “Configuration” del menú principal:

 

seo en medellín

 

Nos ubicamos en la pestaña “Remove Parameters”, añadimos uno a uno los parámetros que deseamos eliminar de las URL y pulsamos “Aceptar”. Si por el contrario queremos que se realice de manera predeterminada, solo marcamos la casilla “Remove all”

Tendremos que ejecutar la araña de nuevo con estos ajustes para que la reescritura ocurra. Esto solo es recomendable con el volumen de reescritura de URLs es alto, de lo contrario lo podemos hacer manualmente yendo directamente al CMS.

 

screaming frog

 

Cómo reescribir las URLs rastreadas (por ejemplo: reemplazar .com por .com.co, o escribir todas las URLs en minúsculas)

Para reescribir cualquier URL que rastreemos, seleccionamos ” URL Rewriting” ubicada en el ítem “Configuration” del menú principal.

 

Screaming frog

 

Luego en la pestaña “Regex Replace”, hacemos clic en “Add” para agregar el RegEx de lo que queremos reemplazar.

 

seo en medellín

 

Para este ejemplo diremos que queremos cambiar todas las URLs terminadas en .co a unas en .net, dado que quisiéramos redireccionar todo un sitio web. en el “Regex” ponemos: “.co” y en el “Replace” (la nueva extensión de las URLs) “.net”

 

seo medellín

 

Una vez que hayamos añadido todas las reglas deseadas, podemos probar las reglas en la pestaña “Test”, de la misma ubicación. Allí aparecerá predeterminado el ejemplo del cambio; en el espacio denominado “URL after rewriting” cómo se verán las URLs, en el campo “URL after rewriting” la URL antes del cambio.

 

screaming frog

 

 Se puede ver entonces como en la pestaña “Test”, nos muestra cómo se haría efectiva este cambio en la parametrización de la finalización de URLs.

Ejecutamos la araña  tenemos el resultado:

 

screaming frog

 

Ahora bien, si deseamos establecer una regla para que todas las URLs se conviertan en minúsculas, sólo debemos que seleccionar “Lowercase discovered URLs” en la pestaña “Options” de la misma ventana que venimos trabajando de “URL Rewriting”

 

screaming frog

 

screaming frog

 

De esta forma, se eliminará cualquier mayúscula de la URL.

 

Investigación de palabras clave con Screaming Frog 

Screaming Frog no permite conocer las keyword research a niveles de volúmenes de búsqueda o intenciones de query, para eso no fue desarrollada la herramienta, pero sí permite analizar aquellas páginas de mayor popularidad de acuerdo a los enlaces y anchor text que usan los competidores.

En general, un sitio web al que se le haga SEO o tiene un comportamiento orgánico positivo por sus buenos contenidos, se caracterizan por difundir la popularidad de los enlaces y dirigir el tráfico a sus páginas más valiosas, enlazándolas internamente. 

Encontremos entonces, las páginas más valiosas de nuestro competidor rastreando su sitio, luego clasificando por la pestaña “Internal” del menú del visualizador principal y finalmente por la columna “Inlinks”, para ver qué páginas tienen más enlaces internos.

 

screaming frog

 

“Inlinks” se encuentra en el extremo derecho de las columnas, pero para este caso práctico es recomendable ponerlo, ya sea bien al lado de la URL principal o justo en el Title y meta description para poder comprender bien la tipología de contenido.

 

Ahora bien, para ver las páginas enlazadas desde el blog de nuestro competidor (a manera de revisar sus referentes), desmarcamos “Check links outside folder” ubicado en el “Configuration” del menú principal y rastreamos la carpeta o subdominio del blog. 

Configuration > Spider > Check links outside folder

 

Seo en medellín

 

seo medellín

 

Recordemos los pasos para rastrear solo una carpeta o subdominio para terminar de configurar el filtro de la carpeta específica y a crawlear:

 

Seo colombia

 

Filtramos por la columna “Inlinks” de la pestaña “External”, y volvemos a filtrar por HTML en tipología de filtros.

 

Cómo saber los anchor text que está usando la competidores en sus enlaces interno

Lo primero que debemos hacer es crawlear la página de la competencia. Una vez la araña termine de rastrear, vamos al menú principal en la opción “Bulk Export”, seleccionamos “All Anchor Text” para exportar un Excel de formato .CSV, y este contendrá todos los anchor text del sitio web, dónde se utilizan y a dónde están enlazados.

 

Screaming frog

 

Screaming frog

 

Screaming frog

 

Cómo saber qué palabras clave -keywords- han añadido los competidores de un sitio web

Aunque el tema de agregar las keywords a un sitio web, puntualmente al CMS, para orientar los motores de búsqueda es una práctica que se dejó de realizar a nivel de SEO desde hace muchos años, existen algunos administradores de portales web que lo siguen haciendo.

Esta es una mala práctica, no sólo porque no aporta nada a Google pero sí nos quita tiempo, sino porque le aporta información a la competencia de las palabras clave que están usando.

Ponemos a correr la araña con la configuración predeterminada para crawlear el sitio web de nuestra competencia o la competencia de nuestro cliente.

Luego filtramos por “meta keywords” del menú del visualizador principal. En la columna “Meta Keywords 1” encontramos las palabras claves asociadas a cada uno de los contenidos, así podemos saber a qué tipo de keywords le están apostando.

 

Seo medellín

 

 Luego podemos exportar esta información si así lo deseamos.

 

screaming frog

 

seo en medellín

 

Ahora si el caso es para una URL particular o un grupo cerrado de URLs, solo cambió la modalidad de búsqueda de la araña de la herramienta en el menú principal “Mode” y “List”

seo en medellín

 

screaming frog

 

 

Subir desde un archivo que tengamos

 

seo medellín

 

Entrar manualmente

 

Medellín SEO

 

screaming frog

 

y poner a crawlear la araña. Luego repetimos el filtro por la pestaña del menú del visualizador principal “Meta keywords”

 

Investigación y gestión de link building para un sitio web propio o de un competidor

 

Cómo analizar una lista de URLs y sus tipos de enlace

Por lo general cuando uno va a analizar el linkbuilding de un sitio web, entra a examinar una lista cerrada de URLs y no todo un sitio web, pues analizamos URLs orientadas a un objetivo particular.

Para esto, debemos usar la araña de la herramienta desde “List”

 

screaming frog

 

y agregamos las URLs a analizar, sea desde la importación de un archivo con el listado de URLs o ingresando éstas manualmente. Para este caso utilizaremos de ejemplo la URL https://es.semrush.com/blog/linkbuilding-de-calidad-tecnicas-seo/ del artículo que escribimos para SEMrush de 6 técnicas de calidad para realizar linkbuilding:

 

seo en medellín

 

Seo en medlelín

 

Cuando la araña termine de rastrear, debemos realizar 3 acciones particulares para comprender este proceso antes de entrar a descargar en CSV para trabajarlo en el escritorio o subirlo a un Google Sheets.

1.Que el status code sea igual a 200, es decir que la página cargue correctamente.

 

screaming frog

 

2. Seleccionar la URL y filtrar por “Outlinks” de la ventana del visualizador secundario

 

seo colombiano

 

3.Aquí encontraremos las siguientes columnas: 

    1. Tipo de enlaces: text, imagen, CSS, JS, HTML canonical
    2. From o URL que estamos analizando. En este caso es una sola.
    3. To o hacia donde está el enlace
    4. Anchor text o texto ancla usado
    5. ALT text o texto alternativo para las imágenes
    6. Follow, que es para verificar si el enlace es True o False, es decir, si transfiere o no autoridad
    7. Link atributos o atributos del link: DoFollow, NoFollow 

Vamos a querer utilizar filtros personalizados para determinar si ésta o esas páginas ya están enlazadas con nuestro portal web o no.

Vamos a Configuration > Custom > Search

 

Seo en medellín

 

Agregar parámetro con botón “Add”

 

screaming frog

 

Cambiar el filtro por “Does not contain”

 

seo en medellín

 

Se pueden agregar varios filtros

 

screaming frog

 

Luego, para segmentar por cada uno de estas URLs, filtramos por el menú del visualizador principal “Custom Search”

 

screaming frog

 

Y luego, a su vez. filtrar en tipología de filtros por el contenedor que queramos revisar

 

screaming frog

 

Esta acción es recomendada cuando son múltiples URLs. Cabe recordar que para que funcione los contenedores de filtros parametrizados, se debe crawlear siempre después a que se agreguen.

Para descargar los archivos, se puede hacer de dos formas. La primera es desde el menú principal 

Bulk Export > All Outlinks

 

screaming frog

 

o desde el botón “Export” del menú del visualizador secundario:

 

screaming frog

 

En ambos casos nos exporta en un formato de Excel .CSV.

 

Cómo encontrar enlaces rotos de un sitio web para resolverlos o reclamarlos

En este enlace encontramos el paso a paso para encontrar enlaces rotos de un sitio web. Luego de esto, si el sitio web es nuestro lo que hacemos es que procedemos a solucionarlo, pero si el sitio web es externo y analizamos las URLs de donde nos enlazan, punto que se explica en el apartado de inmediatamente anterior, podemos proceder a exportar el listado, agregar la URL correcta en un Excel y ponernos en contacto con el propietario o redactor del sitio web para que nos responda con la solución del enlace o la eliminación definitiva de este, dado el caso que sea lo que queramos hacer.

 

Arquitectura de información, visualización de encarpetados y enlazados de un sitio web

 

Luego que la araña termine de crawlear el sitio web, vamos al menú principal de la herramienta opción “Visualisations”. 

 

screaming frog

 

Aquí encontraremos 5 opciones. Las opciones 1 y 2 son para encarpetados, las opciones 3 y 4 para enlazados y las opciones 5 y 6 para nube de palabras

 

Cómo mirar de manera visual el mapa de navegación y encarpetados de un sitio web

 

  • Opción 1: Crawl Tree Graph: Este muestra el mapa del sitio por encarpetados:

 

screaming frog

 

 

  • Opción 2: Directory Tree Graph: Este muestra el encarpetado del sitio pero le aumenta los protocolos HTTP, HTTPs y WP-Content:

seo en medellín

 

Cómo encontrar de manera visual el mapa de enlazados de un sitio web

 

  • Opción 3: Force-Directed Crawl Diagram: Muestra la página web por nodos alrededor de sus enlazados internos:

 

screaming frog

 

Sirve para ver de manera gráfica cuáles son las páginas que tienen mayor comportamiento de enlaces.

 

Está compuesto por varios colores:

 

El color verde: URLs indexables. Entre mayor fuerza sea el color es porque tiene a su cargo mayor cantidad de URLs indexables. Entre más claro sea el verde es porque tiene a su cargo URLs indexables como no indexables, pero son mayor cantidad las indexables.

 

El color rojo: URLs no indexables. Al poner el cursor sobre el nodo rojo nos indica la razón porque no está indexada. Puede ser por configuración del robots.txt, un redireccionamiento e incluso un error.

 

screaming frog

 

El color amarillo: URLs destacadas. Son aquellas URLs que destacan por su mejor comportamiento

 

El color azul: Nodo de folios. Encarpetados con múltiples carpetas a su cargo.

 

El color naranja: URLs contraídas. Son aquellas URLs fueron acortadas por su longitud.

 

El color gris: Nodos contraídos. Aquellas URLs que por su gran cantidad de hijos no se pueden visualizar todos. De esta manera Screaming Frog marca que no se hizo completo el rastreo.

 

screaming frog

 

  • Opción 4: Force-Directed Directory Tree Diagram: Muestra la página web por nodos alrededor de sus encarpetados:

 

screaming frog

 

Al pararse sobre cada nodo muestra la URL y datos asociados con el SEO on Page y magnitud de texto del contenido.

 

seo en medellín

 

Cómo hacer una nube de palabras con las más usadas en anchor text y textos de contenido de un sitio web

  • Opción 5: Inlink Anchor Text Word Cloud: Muestra una nube de palabras de acuerdo a los anchor text más usados en el sitio web:

 

seo en medellín


  • Opción 6: Body Text Word Cloud: Este nos muestra una nube de palabras de acuerdo a todo el texto usado a lo largo y ancho de la página web. Las palabras más usadas son las que se visualizan más grande.

 

screaming frog

 

Para que este funcione debemos realizar una configuración previa.

 

Configuration > Spider > Extraction

 

Marcar los puntos “Store HTML” y “Store render HTML”

 

 

screaming frog

 

seo en medellín

 

 

 

 

Para finalizar. ¿Cómo nos pareció el artículo? Seguro algunos no lo leyeron completo pero sí encontraron una que otra técnica para optimizar la estrategia SEO con Screaming Frog

 

No siendo más, podemos compartir el texto por las plataformas que consideremos, aprender es un reto que nos compete a todos y compartir información que nos ayude a esto mucho más.

 

Screaming Frog es una herramienta maravillosa, pero debemos formarnos en tecnicismos, metodologías y experiencias. !Síguenos en redes sociales y compartamos información!

 

¿Quieres una estrategia SEO para tu negocio? ¡Mira todas las posibilidades que podemos crear para ti!

 

Eddie Vélez Benjumea
Especialista SEO senior
Más que un comunicador, Eddie es un investigador social apasionado por el periodismo y los relativos narrativos que invitan a imaginar la realidad que se está contando. Su experiencia como redactor de contenidos digitales lo convierten en el aliado ideal para cualquier estrategia digital, enfocada en SEO o content marketing.

También te puede interesar

Las 35 mejores agencias SEO en Ecuador
El SEO (Search Engine Optimization) se ha convertido en la clave para el éxito de
Ver más
Marketing de Resultados: la metodología que aporta a las ventas
Durante las últimas semanas que he concentrado un alto porcentaje de mi tiempo a la
Ver más
El SEO, los sitios web y el Universo
Desde hace unos meses vengo obsesionado con la compresión de estructura de sitios web grandes,
Ver más
¿Cómo nos especializamos en hacerle SEO a las universidades?
En la imagen pueden ver una georreferenciación de aquellas universidades que han confiado en nosotros.
Ver más
Top 30: Mejores agencias de pauta digital (SEM) en Colombia
La pauta digital es una estrategia de marketing que consiste en comprar espacios publicitarios en
Ver más
Top 15: Mejores agencias de publicidad en Google Ads en Miami
¿Estás buscando la agencia indicada para ayudarte a posicionar tu empresa en Google, Facebook, Instagram
Ver más
Ver todos

Las personas hoy en día realizan más del 70% de las compras a través de la búsqueda de información.

¡Quiero conocer más sobre los servicios!