☕ #56 - Protege tu contenido de los bots de IA

jul 27, 2023

¡Buenos días!

Comenzamos la mañana del jueves con una selección de las mejores noticias del mundo SEO. Ya somos 2.889 lectores suscritos a #ChuletaSEO, 29 más que la semana pasada.

Esta semana: Ideas para facilitar el acceso y uso de nuestros contenidos por parte de los LLMs de la IA. Verifica siempre tus redirecciones para evitar problemas. Novedades en Google.

NOTICIAS DESTACADAS

📢 Noticias más destacadas de Google

El objetivo con el que comencé esta newsletter SEO no era tanto hacer una selección de las noticias más relevantes, sino poder aportar mi visión y opinión personal en temáticas de actualidad o relacionadas con el SEO. Por eso me gusta comentar algunas noticias destacas de cada semana así como compartir aprendizajes de mis casi 15 años en el SEO.

Esta semana contamos con un gran vídeo de John en el que trata temas de actualidad como las core web vitals, la búsqueda generativa (SGE) o los últimos cambios en Search Console, entre otros. Siete minutos para al estar al día con Google.

😳 En casa del herrero, cuchillo de palo

Una parte importante de mi trabajo consiste en probar y experimentar para luego saber cómo actuar en las estrategias de mis clientes. Para ello utilizo mis propias páginas. Nos os podéis ni imaginar la cantidad de perrerías que hago, pero es la manera más eficaz que conozco de aprender a relacionarse con los buscadores.

Llevaba varios meses notando caída en posiciones para el término consultor SEO con la URL https://emirodgar.com/consultor-seo. Desaparecí del índice y comencé a posicionar por dicho término con la URL geolocalizada de Salamanca: https://emirodgar.com/consultor-seo-salamanca. Más que asustado, sentía curiosidad por saber qué estaba ocurriendo.

No des por hecho que Google entiende lo que haces

Hace algún tiempo estuve haciendo pruebas para saber cómo identificaba y gestionaba Google las redirecciones. La página de emirodgar.com la tengo montada con Jekyll y, cuando terminé con las pruebas sobre /consultor-seo/, habilité una redirección 301 a través de Jekyll de la versión con / final a sin /. Y me quedé tan pancho.

En teoría, y esto es lo maravilloso de Google y el SEO, una redirección 301 como meta refresh debería ser reconocida por el robot de búsqueda. Pero en este caso no fue así.

Cuando hacemos una redirección en Jekyll, la página antigua que estamos redireccionando devuelve un noindex y, luego, redirecciona. En este caso, Google se quedó sólo con la primera parte y desindexó la URL con / al final ignorando por completo la redirección. En la imagen superior podemos ver que la URL con / final no está indexada.

¿Solución?. He deshabilitado la redirección 301 a través de Jekyll y la he configurado desde Cloudflare, el CDN que utilizo en ese dominio. Y me llevo un gran aprendizaje.

¿Cómo interactuaremos con los robots de las IA?

Este debate me ha parecido muy interesante. Hace algunas semanas, Google proponía emplear el fichero robots.txt para determinar cómo acceder a contenidos con derechos de autor y bajo qué directrices ser empleados por los LLM (Modelos de lenguaje Grande) en los que se basan las soluciones de inteligencia artificial.

Problemas de usar el robots.txt par las herramientas de IA

El archivo robots.txt fue creado en 1994 por el holandés Martijn Koster como estándar para controlar el acceso de los robots de los buscadores a los sitios web. Emplear una tecnología de casi 30 años tiene sus limitaciones:

No todos los LLMs emplean robots de búsqueda para rastrear el contenido.
El fichero tiene un límite de 500kbs, por lo que podría quedarse pequeño.
Su funcionamiento actual es: permitido (allow) o bloqueado (disallow). En un entorno de IA, necesitamos más margen de maniobra.
El fichero se centra en el rastreo pero no ofrece instrucciones sobre el uso de los datos rastreados/indexados.

Una posible solución pasaría por utilizar una meta etiqueta y asociar los contenidos de cada página bajo una licencia Creative Commons. Por ejemplo:

<meta name="usage-rights" content="CC-BY-SA" />

Ninguna solución, por sí misma, podrá evitar el mal uso de nuestros contenidos, pero si las opciones comerciales consensuan un método de acceso y uso, tendremos un avance significativo en este campo.

TAMBIÉN HA OCURRIDO

Lecturas SEO recomendadas

Tras más de tres semanas en activo, Google logra solucionar el bug de indexación asociado a su portal de noticias (Google News).
Google confirma que no hay una relación directa entre buen tiempo de carga y un mejor posicionamiento. Se trata de un conjunto de factores.
Consejos para sacar más rendimiento de Google Merchant Center y generar confianza en los usuarios.
Google está probando carruseles que comparan productos/servicios en los resultados de búsqueda.
Los editores de medios digitales podrán disfrutar de herramientas de IA para potenciar y mejorar su trabajo.
No intentes engañar a Google con perfiles falsos. No saldrá bien. Invierte tiempo en hacer bien las cosas.
Si tus enlaces en Seaarch Console han caído drásticamente, tranquilo, no eres el único.
Tácticas SEO que nunca pasarán de moda.

Otras noticias del sector

Google inicia la última fase para deshacerse de las cookies de terceros en Chrome y en España se ultima la ley para que sea igual de fácil aceptar que rechazar las cookies.
El auge de servicios como Copilot o ChatGTP está generando una caída de usuarios en Stackoverflow. De 10 millones de usuarios diarios ha pasado a tan sólo 4 en los últimos meses.
Diferencias de datos entre GA4 y Looker Studio. Aprende cómo solucionarlo.

Chuleta SEO

Discusión sobre este post

Por supuesto, sigue adelante.