¿Qué es un Robots.txt? Te lo contamos claro y sencillo

¿Sabes qué es un robots.txt? Es un archivo de texto guardado con la extensión .txt, también conocido como Robots Exclusion Protocol (REP), el cual es un estándar que permite a los webmasters indicarle a los bots (Googlebot o Bing Bot, por ejemplo) cómo quieren que estos crawlers visiten un sitio web. 

En pocas palabras:

1. Los bots o crawlears rastrean y navegan por tu sitio web todos los días. 

2. Hay ciertos estándares (los REP mencionados arriba) que permiten decirle a estos bots: “Oye, por favor, no quieres que visites estos lugares de mi sitio porque no son relevantes o tiene información sensible”. 

3. ¿Cómo le indicamos eso a los bots? Con directrices establecidas en el estándar para crear el robots.txt, y que veremos más adelante. 

4. ¿Entonces el bot hace siempre lo que yo le indico con mi archivo.robots.txt? No. Hay cierto tipo de bots que ignoran las directrices, como los robots malware, los cuales son usados para encontrar vulnerabilidades en tu sitio o para hacer spam

¿Pero cómo luce un archivo robots.txt?

vista de robots.txt

5. ¿Y cómo se crea o se configura? Hay varias formas de crear un archivo robots.txt, una de ella es creando el archivo en nuestro computador y subiéndolo a nuestro servidor a través de plugins como Rank Math o Yoast SEO.

Sin embargo, en el caso de WordPress, el robots.txt viene por defecto al momento de instalar el CMS. Pero, ¿cuál es el dilema? Que, como vemos en el siguiente ejemplo, no tiene establecido ningún parámetro y los bots entran a rastrear todas las URLs de mi sitio:

robots.txt por defecto

¿Pero qué son esos bots que bloquean el robots.txt?

Antes de seguir explicando los parámetros del robots.txt, hablemos sobre los robots o un web bot, los cuales son programas que, mediante unos parámetros específicos, navega la World Wide Web con la finalidad de crawlear (es decir, de leer y analizar) los contenidos de cualquier sitio web.

En el caso de los motores de búsqueda, cada uno de ellos tiene su propio bot: 

 

  1. Google Bot: el crawler de Google. 
  2. Slurp Bot: El bot de Yahoo. 
  3. Bing Bot: El crawler de Bing. 
  4. DuckDuckBot: La araña de rastreo de  Duck Duck.
  5. ia_archive: El bot de rastreo de Alexa. 

consideraciones de robots.txt

Aunque aquí los seguiremos llamando “Bots”, también tienen otros nombres con los que muchos webmasters, desarrolladores o especialistas SEO los llaman: arañas de rastreo, crawlers, spiders, etcétera. 

¿Por qué es importante usar robots.txt?

Como decíamos, el robots.txt le indica a los crawlers o arañas qué contenidos no quieres visiten en un tu sitio web, entre ellos:

  1. Análisis de links.
  2. Validación del código HTML. 
  3. “Scrappeo” o análisis de contenido (para detectar spam)
  4. Búsqueda de imágenes, videos, audios, etcétera.

A pesar de que hay otro tipos de contenidos que los bots crawlean, con el robots.txt puedes indicarle a las arañas qué contenido quiero que evite cada vez que “lea y analice” las URLs de mi sitio web.  

¿Por qué indicarle a los spiders que no lean cierto tipo de contenidos? Fácil: hay ciertas rutas o información de un sitio web que no son relevantes ni para el negocio, ni para los usuarios. 

Ejemplo:

  1. URLs con información de sensible (datos personales, información financiera)
  2. Rutas de intranet con sistemas que son solo para empleados de tu empresa. 
  3. En sitios webs con miles de URLs, hay cierto tipo de contenidos que no son tan importantes al momento de rastreo del sitio web.

¿Qué hay que saber antes de crear el robots.txt?

Si es la primera vez que escuchas hablar del robots.txt, sea que tengas tu sitio web personal o estés creando este archivo para tu emprendimiento, hay 4 conceptos que es importantes que conozcas. Luego de ello, procederemos a crear nuestro archivo. Estos son:

  • User-agent:

por user-agent entendemos el crawler o bot al que queremos indicarle que visite o que no visite páginas o directorios específicos. 

Hay varios user-agentes o agentes, como los son:

  • Googlebot Image
  • Googlebot News
  • Googlebot Video
  • AdsBot Mobile Web

Dependiendo de la configuración y de las necesidades de tu sitio, puedes crear indicaciones para para cada user-agent o indicar de la siguiente manera (utilizando el *) que esas directrices son para todos los bots, sean de Google, Yahoo, Yandex, DuckDuck, etc.

user agents robots.txt

Disallow:

 A través de esta regla indicamos a los user-agents (los bots) qué páginas o directorios de un sitio no deben rastrear. 

Con esto le indicamos al bot que rastree todo el sitio web.

directivas robots.txt

A diferencia del anterior, con este slash/ indicamos a los user-agents que deje por fuera de su rastreo a todo el sitio web. 

disallow robots.txt Con el /nombredeldirectorio le indicamos que no queremos que siga la ruta de esa carpeta específica y todo lo que viene después de ella:

https://misitioweb.com/servicios/nombre-del-servicio
                                                                        /nombre-de-otro-servicio

url en robots.txt /nombre-de-otro-servicio
Con la ruta de esa URL le decimos al bot que evite crawlear específicamente ese archivo.

  • Allow: 

A diferencia de la directiva Disallow, en este caso indicamos qué partes de mi sitio web quiero que los user-agents rastreen.

disallow robots.txt ejemplosEn el caso de despegar, podemos ver como utilizan “Alow” para todo lo que viva dentro de la carpeta http://despegar.com/paquetes, pero que no siga rastrea lo que esta luego de esa carpeta http://despegar.com/paquetes/sem

Sitemap: 

Aunque Google establece que no es obligatorio su uso, es recomendado agregar la URL del sitemap de tu sitio web, de forma que le indiquemos al bot qué contenido nos interesa que rastree y que es de valor para tu negocio. 

Nota: Al no establecer un archivo robots.txt, los crawlers leerán por defecto todo tu sitio web sin discriminar ningún tipo de rutas o contenido.

Además, es posible que ciertos contenidos bloqueados por robots.txt terminen siendo indexados por el buscador, es decir, agregado a su índice de resultados. 

Ya que sabes qué es un archivo robots.txt, aquí te dejo algunos ejemplos interesantes de robots:

Ahora que sabes lo que hay que tener en cuenta antes de crear un archivo robots.txt, queremos enseñarte el paso a paso completo para crearlo.

Esta práctica guía te mostrará el camino correcto para lograr la creación exitosa de un archivo robots.txt para tu sitio web.

 

¿Cómo crear un archivo robots.txt para tu sitio web?

En el mundo del SEO todos han escuchado alguna vez las palabras archivo robots.txt.

A simple vista, parece que es algo extremadamente difícil, pero déjame decirte de una vez: 

  • Es muy fácil de crear.
  • Te ayudará un montón en el SEO de tu sitio web.
  • Configurarlo es gratis.

Ya que sabes lo más importante, hoy te voy enseñar dos formas de crearlo:

  1. Con un archivo creado en tu computador y subiéndolo al  CPanel de tu sitio web.
  2. A través del plugin Rank Math para WordPress. 

Primera forma de crear mi archivo robots.txt

Tranquilo, es más sencillo de lo que crees, este es el método más ortodoxo:

Creando un .txt y subiendo el archivo el Public_html

Crear un archivo robots.txt es muy fácil. Lo que necesitas a la mano es un editor de texto como el Bloc de notas, Notepad++ y luego:

1. Creamos un archivo nuevo en Bloc de notas o Notepad++.

Robots.txt en bloc de notas

2. En este caso, utilizaré Notepad++. Cuando lo creamos, veremos un texto en blanco: 

Robots.txt en wordpad

Dependiendo de la necesidad, el robots.txt puede estar organizado de diversas maneras. Pero a partir de los conceptos que evaluamos arriba podemos ver un ejemplo de robots.txt con la configuración básica y que puedes replicar para tu sitio:

  • User-agent: *
  • Disallow: /wp-admin/
  • Disallow: /cgi-bin
  • Disallow: /wp-content/plugins/ 
  • Disallow: /wp-content/themes/ 
  • Disallow: /wp-includes/ 
  • Disallow: /*/attachment/
  • Disallow: /tag/*/page/
  • Disallow: /tag/*/feed/
  • Disallow: /page/
  • Disallow: /comments/
  • Disallow: /xmlrpc.php
  • Disallow: /?attachment_id*
  • Sitemap:https://loscreativos.co/sitemap_index.xml (En este caso, debes usar la URL de tu sitemap 🙂

En este caso, podemos utilizar las almohadillas para agregar comentarios en el archivo robots.txt

como crear robots.txt

3. Al tener nuestro archivo organizado, procedemos a guardarlo con el siguiente nombre: robots.txt. Ten en cuenta que si lo utilizas con otro nombre (robot.txt, sin la “s”) o cualquier otra nomenclatura, no podrás configurarlo en esta primera forma. 

guardar robots.txt

4. Ya teniendo guardado tu archivo robots.txt, deberás ingresar al servicio de hosting que tenga tu web y a través de él ingresar al CPanel y hacemos clic en “File Manager”:

robots.txt en cpanel

5. Al hacer clic entrarás al área interna del File Manager y deberás hacer clic en la carpeta “Public_html”:

ubicacion robots.txt

6. Como ven en este caso, ya subí el archivo robots.txt haciendo clic en el botón “upload” y arrastrando el archivo desde mi computador:

subir robots.txt cpanel

7. Al subir el archivo, me dirá que fue exitosamente cargado:

robots.txt cpanel

8. Ahora veamos cómo luce nuestro  robots.txt ya en la raíz del sitio web, luego de subirlo correctamente:

ejemplo de robtos.txt

Aspectos a tener en cuenta al crear el robots.txt

Google nos deja bien claro cómo debe ser un archivo robots.txt, además de indicarnos las reglas de formato y ubicación:

1. El archivo -obligatoriamente- debe llamarse “robots.txt”. (No nos podemos poner creativos aquí). 

2. Por cada sitio puede existir un solo robots.txt. Sin embargo, si tienes varios subdominios, cada uno puede albergar su robots. Ejemplo:

  • https://www.blog.loscreativos.co/robots.txt
  • https://www.academy.loscreativos.co/robots.txt

3. El archivo, como vimos en los dos ejemplos arriba, viven en la raíz del sitio web. Mira este ejemplo: https://loscreativos.co/robots.txt

5. Si quieres utilizar comentarios, debes utilizar el # o almohadilla.

Segunda forma de crear el Robots.txt

Este método seguro te parecerá mucho más sencillo, solo sigue los pasos:

Instalando el plugin Rank Math en tu WordPress

Rank Math es un plugin de SEO para WordPress muy popular durante los últimos años. 

Aunque ciertamente esto también lo puedes hacer con Yoast SEO, en esta decidí utilizar este plugin que ha sido mi aliado durante muchos tiempo. 

¿Para qué sirve Rank Math? Para ayudarte a optimizar contenido de tu sitio, como por ejemplo los meta títulos o meta descripciones de tus URLs. 

En nuestro caso, nos ayudará a configurar nuestro robotst.txt de una forma mucho más fácil que la anterior y sin necesidad de accesos al CPanel. 

1. Una vez en el escritorio de tu WordPress, ve a la barra lateral y haz clic en Plugins. Luego, en “Añadir nuevo”:

buscar rankmath

2. En la barra de búsqueda ubicada a la izquierda de la pantalla vas a buscar “Rank Math” y te aparecerá el siguiente plugin:

Instalar rankmath

3. Luego de hacer clic en “Instalar” y luego en “Activar” (muchos instalan el plugin y no lo activan), el plugin te pedirá que establezcas configuraciones iniciales:

configuración de rankmath

 

4. Luego de saltar los pasos o de hacer la configuración del plugin o de saltar los pasos, Rank Math te llevará hacia su dashboard de opciones:

configuración de rankmath

5. Una vez allí, hacemos clic en ajustes generales, como veremos a continuación, y hacemos clic en editar robots.txt:

robots.txt en rankmath

6. Una vez allí, procedemos a configurar nuestro robots.txt. En este caso, como ya lo subí por la opción 1 desde el CPanel, tengo la información establecida. 

Sin embargo, puedo editarla a mi antojo como vemos a continuación:

robots.txt en rankmath

robots.txt ejemplo final

Estas son dos formas que puedes utilizar para subir o configurar tu archivo robots.txt, el cual es esencial en una estrategia de SEO para cualquier sitio web. Recuerda que, mientras mejor configurado esté, podrás tener más control de qué cosas Google puede crawlear y qué otras no son tan importantes. 

Jesús Bermúdez
Especialista SEO

Periodista y comunicador con conocimientos en marketing digital y analítica web. Redactor de contenido con experiencia
en SEO. Se encuentra en constante aprendizaje y actualización de los cambios en los motores de búsqueda.

También te puede interesar

Las 35 mejores agencias SEO en Ecuador
El SEO (Search Engine Optimization) se ha convertido en la clave para el éxito de
Ver más
Marketing de Resultados: la metodología que aporta a las ventas
Durante las últimas semanas que he concentrado un alto porcentaje de mi tiempo a la
Ver más
El SEO, los sitios web y el Universo
Desde hace unos meses vengo obsesionado con la compresión de estructura de sitios web grandes,
Ver más
¿Cómo nos especializamos en hacerle SEO a las universidades?
En la imagen pueden ver una georreferenciación de aquellas universidades que han confiado en nosotros.
Ver más
Top 30: Mejores agencias de pauta digital (SEM) en Colombia
La pauta digital es una estrategia de marketing que consiste en comprar espacios publicitarios en
Ver más
Top 15: Mejores agencias de publicidad en Google Ads en Miami
¿Estás buscando la agencia indicada para ayudarte a posicionar tu empresa en Google, Facebook, Instagram
Ver más
Ver todos

Las personas hoy en día realizan más del 70% de las compras a través de la búsqueda de información.

¡Quiero conocer más sobre los servicios!