El thin content es uno de los errores más frecuentes por los que proyectos web no consiguen tráfico y es «difícil» de detectar porque es «silencioso», es decir, no hay nada establecido que te diga si Google va a considerar tu artículo como thin content, un parámetro como podría ser el «extinto» PR (PageRank), sólo tu experiencia y conocimientos podrán hacerlo (nos ayudaremos de algunas tools) y hoy aquí te enseñaré cómo.
No son pocos los que invierten gran cantidad de dinero y tiempo en mejorar la carga de su web o en conseguir enlaces potentes con cero resultados, algo que les frustra y piensan que el SEO no funciona, cuando el problema principal lo tienen en sus contenidos.
El problema, es que generar contenido de calidad tiene un coste de dinero o tiempo, en cambio es uno de los apartados a los que generalmente los webmasters no dan mucha importancia, ✅ realizan un profundo keyword research, ✅ diseñan una buena arquitectura web, ✅desarrollan una web que carga rápido, le ✅crean muchos backlinks de autoridad… y ❌ delegan la creación de contenido a autores sin demasiado conocimiento o experiencia que echan por tierra todo el trabajo anterior.
No confundas thin content con poco contenido, habrá intenciones de búsqueda que se puedan resolver con poco contenido, piensa más en la utilidad que el usuario va a obtener de ese contenido si va a satisfacer sus necesidades o sólo le hará perder tiempo.
Tienes que tener claro que no te interesa en absoluto que Google indexe todas las páginas de tu web, a veces, sobre todo cuando empezamos en esto pensamos que basta con subir la página al hosting que «ya se las apañará Google» con ella, con el tiempo nos damos cuenta de que hay poco de cierto en eso, si quieres mejorar el posicionamiento web de tu página tienes que darle a Google todo el trabajo mascadito, decirle qué indexar y qué no (robots.txt, noindex), qué páginas son las importantes (canonicals), versiones de idioma de la web (hreflang), qué relación tenemos con la web que enlazamos (nofollow, ugc, sponsored) …
Hoy vamos a encargarnos de aprender todo sobre el thin content y cómo evitar problemas con el contenido de baja calidad en nuestra web, una situación que afecta a la mayoría de páginas web, así que sí, seguro que tú también tienes problemas de thin content que están lastrando el crecimiento de tu página web, sigue leyendo para aprender a resolverlos.
¿Qué es el thin content?
Tabla de contenidos
El thin content es definido por Google como contenido de baja calidad, contenido que no satisface la intención de búsqueda del usuario y es por este motivo que Google lucha con todas sus fuerzas (?) para sacarlo de sus resultados de búsqueda porque para Google, aunque no lo creas, el usuario es lo primero.
THIN CONTENT = CONTENIDO DE BAJA CALIDAD
Si estás pensando en cómo Google es capaz de saber si un contenido resuelve la intención de búsqueda de un usuario es muy sencillo, existen una serie de métricas enfocadas en la experiencia de usuario como dwell time (1) o pogo sticking (2), que le ayudan a determinar qué etan satisfechos salen los usuarios de nuestra web.
1 El dwell time es una métrica del marketing tradicional que calcula el tiempo que un usuario se pasa observando un producto o un escaparate, en el caso del marketing online esta métrica calcula el tiempo que transcurre entre que un usuario hace click en nuestro resultado de búsqueda en las SERPs hasta que vuelve al buscador (si es que hace click atrás), es decir, si un usuario hace click en nuestro resultado y 6 segundos después vuelve al buscador, es evidente que no ha encontrado lo que buscaba en nuestra web.
2 Pogo Sticking, hace referencia precisamente a este comportamiento de los usuarios, de abrir varias URLs desde el buscador para consultar y volver al buscador si los resultados no le convencen, si tu sitio tiene un alto porcentaje de pogo sticking es probable que baje su posicionamiento porque no está resultando útil a los usuarios.
Tipos de thin content
Contenido automático – Este es el más común del tipo de thin content que puedes encontrar en una auditoría seo, muchas veces los dueños del blog o del ecommerce ni siquiera son conscientes de que esas URL le podrían estar perjudicando al posicionamiento web.
Tipos de contenido automático: Paginaciones , páginas de autor , filtros de búsqueda , tipos de productos , categorías , etiquetas …
Por ejemplo, en los blogs donde escriben varias personas es común encontrar una página de autor , donde encontramos una breve descripción del autor, y un listado de los artículos escritos por él mismo… esa página no añade valor al usuario, que podria encontrar los artículos listados en las categorías, además el contenido original que añade es muy poco (generalmente un par de líneas de la descripción del autor) frente al contenido similar (que ya aparece en otras categorías) de los artículos.
Otro error que por suerte ya se ve cada vez menos son las etiquetas o tags, hace no muchos años era normal encontrar en la home de muchas webs una nube de etiquetas, que generaban cientos o miles de páginas donde se filtraban los artículos que contenían esa etiqueta, así tenías los artículos listados por categorías, por etiquetas y por autor… cientos de páginas que no aportan nada nuevo más allá de un listado de artículos.
Contenido de afiliados – Google no «odia» las webs de afiliados como mucha gente piensa, Google odia el contenido de baja calidad y este tipo de webs por norma general suelen tener contenido que no aporta nada al usuario más allá de tratar de convencerle para comprar ese producto desde su enlace de afiliado.
Pero si trabajas las comparativas, las reviews del / los producto / s, opiniones, manuales de uso, etc … y estás aportando contenido de valor al usuario podrás posicionar muy bien para keywords cuya intención de búsqueda se la de «opiniones de … «, «el mejor … «, etc.
Contenido copiado (scraping) – Bien mediante técnicas de blackhat como scraping, textos spineados, etc… el uso de este tipo de textos que no son 100% originales pueden resultar en una pérdida de posiciones en el peor de los casos, o en el mejor, en que Google ni siquiera rastree nuestra página por ser thin content. Si recurres es este tipo de técnicas asegúrate de saber siempre lo que haces en cada momento y asegúrate de que el contenido que creas es único, herramientas como Plagium o Plagiarism pueden ayudarte comparando esos textos con lo ya existente en internet. Más acerca de cómo solucionar problemas acercas del contenido duplicado.
Contenido de catálogo – Muchas veces los dueños de los ecommerce no son conscientes del perjuicio que puede causar a su tienda (principalmente en posicionamiento) el uso de títulos y descripciones de catálogos proporcionados por los fabricantes. A veces por falta de recursos, por dejadez o por desconocimiento añaden a las fichas de productos los títulos y descripciones tal como se las facilita el distribuidor en el catálogo, sin caer en la cuenta que eso mismo lo pueden estar haciendo cientos de tiendas más, resultado encontramos en internet cientos de páginas de producto exactamente igual a la de nuestra tienda, en este caso, ¿a quién posiciona Google?
¿Cómo afecta el thin content a mi posicionamiento?
De forma negativa siempre y además lo hace por varias causas, que te explico a continuación, pero ten en cuenta que perjudicará con mayor o menor intensidad dependiendo del tamaño de la web, que no salten las alarmas si tienes un par de páginas con contenido duplicado.
Es decir, si tu web tiene 50.000 páginas y tienes 10 páginas afectadas por thin content, no tienes de qué preocuparte apenas tendrás problemas con esto, pero si de esas 50.000 son 25.000 las páginas afectadas, entonces tienes un problema gordo, no thin. ?
1 Perjudica a tu crawl budget – Sino lo conoces, el crawl budget (definición en el blog de Google) es el porcentaje de rastreo que Google asigna a cada web, es un cálculo matemático que puede variar dependiendo de la autoridad de la web o la frecuencia de actualización entre otros factores, pero lo importante es que es finito, es decir, es un tiempo que Google destina que una vez finalizado dejará de rastrear e indexar otras páginas de tu web.
Si tienes muchas páginas con thin content o contenido basura, seguramente no van a posicionar, pero además Googlebot perderá tiempo en rastrear esas páginas y puede quedar fuera del rastreo (por tanto de la indexación y por tanto de posicionar) otras páginas web que sí te pueden interesar más a la hora de captar usuarios o venderles un producto.
2 Incrementa la tasa de rebote – Este valor (ayuda Google Analytics) indica el porcentaje de usuarios que entraron en nuestra web pero rápidamente volvieron a las SERP del buscador, es decir, no realizaron ninguna acción en nuestra web, pero además esta tasa de rebote le está indicando a Google que los usuarios no encuentran lo que buscan para esa query en nuestra web.
3 Menos keywords rankeadas – Aunque esto no es un problema intrínseco del thin content, antes los webmasters se escudaban en las 300 palabras, asegurando que si el artículo tenía más de 300 palabras Google te iba a posicionar, esto tiene algo de verdad y mucho de mentira.
La longitud del artículo no es un factor decisivo para satisfacer la intención de búsqueda del usuario, por ejemplo, si un usuario busca cuál es la fórmula del agua, con el «texto» H2O se dará por satisfecha su búsqueda. En ese caso no tendría mucho sentido redactar más texto.
Pero sin embargo, el hecho de crear un artículo de más palabras, hace que de forma natural e «involuntaria» se ataquen más keywords y más intenciones de búsqueda, lo que a la larga nos traerá más ventajas que inconvenientes, siempre que no sea texto de relleno y aporte valor al usuario.
4 Penalización de Google – ? ¿Has oído hablar de panda? No, no me refiero a esos adorables ositos blancos y negros que se pasan la vida comiendo bambú, sino a la actualización del algoritmo de Google que lanzó en 2011 para combatir las páginas con contenido de poca calidad. Te daré otra mala noticia, su nombre no es por los ositos, sino por el ingeniero que desarrolló este update, Navneet Panda.
Pues bien, este algoritmo está especialmente diseñado para analizar y penalizar aquellas páginas web con contenido de baja calidad, ya no es que no posicione ese contenido, sino que si Google lo considera de mala calidad te va a penalizar, bajar de posición, excluir esa URL del índice o todo el dominio entero.
Detectar el thin content en tu web
Hay muchas técnicas para detectar el thin content en tu página web, lo más sencillo es empezar por detectarlo por el tipo de páginas que tenemos en la página:
- Páginas estáticas: aviso legal, cookies, política de privacidad…
- Páginas generadas automáticamente (WP): etiquetas, author…
- Páginas duplicadas: categorías, subcategorías, archivo…
- Páginas vacías: categorías sin artículos…
Por ahí puedes empezar y ya tendrías gran parte del camino recorrido, pero ahora viene lo interesante, vamos a detectar páginas con contenido (artículos o páginas) pero que Google ha marcado como contenido de baja calidad y no posicionan o no todo lo bien que deberían.
De forma gratuita
Google Analytics
Una de las formas más habituales que empleo yo para detectar no sólo thin content sino contenidos que por una causa u otra no están funcionando es muy sencillo, basta con tener Google Analytics instalado en tu sitio web, ir al Dashboard de tu sitio, y en la sección:
Comportamiento > Contenido del sitio > Páginas de destino
Verás el listado de páginas webs por las que está entrando el tráfico a tu web desde los buscadores, es decir, las páginas mejor posicionadas en los resultados, ahora lo que haremos es establecer un rango de tiempo de entre 12 meses hasta 2 meses antes a la fecha actual, yo lo hago así para evitar en el listado artículos con menos visitas porque son nuevos.
También puedes usar el filtro para eliminar páginas o quedarte sólo con aquellas que necesitas, por ejemplo, si sólo quieres analizar las contenidas en un directorio.
Ahora ya sólo queda ordenar de menos a más visitas y encontrarás aquellas páginas que tienen más de 2 meses y que por algún motivo (puede ser thin content) no están posicionando ni recibiendo tráfico orgánico.
Google Search Console
GSC es otra herramienta que Google pone a nuestra disposición mediante la que podemos obtener información muy valiosa, entre toda ella, en concreto el rendimiento de las páginas webs nos da una idea clara de las páginas que están recibiendo más o menos clics
Basta con ir a a la sección Rendimiento > Páginas
Herramientas especializadas
Safecont
La herramienta española especializada y referencia en cuanto a problemas de contenido se refiere, si tienes dudas de que tu web está afectada por este problema, Safecont será un salvavidas al que agarrarte porque puede analizar todo tu sitio a fondo e indicar con un porcentaje el nivel de thin content de cada página o el riesgo de ser penalizado.
¿Cómo sabe Safecont si un contenido es de calidad? Bueno, es realmente complicado porque es una herramienta compleja, pero tiene una gran BD de sitios a los cuales analizan, revisan sus posiciones, y monitorizan… saben las características de las paginas que suben o bajan de posición y comparan estos datos con tu web.
Compara no sólo el thin content, si no el contenido duplicado (interno o externo) y la similaridad, si tienes por ejemplo fichas de producto con poca descripción verás que este valor, el de similaridad se te va a disparar por los aires.
El hecho de tener todos los valores de PandaRisk, Thin Content, Similarity y External Duplicate no te garantiza 100% estar exento de riesgo, pero si te tranquiliza en un alto grado de que estás haciendo las cosas bien. César Aparicio (su fundador) no te va a dar un salvoconducto que te libre de cualquier penalización de Google, pero al menos sabrás que tu contenido cumple con ciertas medidas de calidad.
Además encontrarás otras herramientas muy útiles también a la hora de crear nuestro sitio y su contenido como una herramienta de interlinking y arquitectura web que te permite tener controlados los enlaces internos y diseñar tu web con pocos niveles de profundidad para optimizar el rastreo de los crawlers.
DinoRank
La suite de herramientas SEO más económica del mercado, tiene un módulo dedicado de forma exclusiva a la detección del thin content, no es tan avanzado como Safecont, pero te servirá para detectar thin content en tu blog y poder resolver el problema.
La forma de hacerlo es, como hemos visto más arriba de forma manual, cruzando los datos de Google Analytics para saber la tracción de tráfico de cada URL, sacando rápidamente las páginas que no reciben tráfico orgánico, es decir, que los visitantes no llegan a ellas desde los buscadores.
También tenemos un muy útil módulo de WDF*DF, que es una versión personalizada y mejorada del TF*IDF, con lo que podemos sacar la distribución estadísticas de las palabras claves que utilizan artículos similares al nuestro por intención de búsqueda o query, pudiendo así adaptar nuestro contenido con esos valores, que entendemos que son los que Google considera buenos para esas kws.
Si quieres crear una cuenta en Dinorank puedes aprovechar porque a veces sacan ofertas de prueba o descuentos para que puedas testear el potencial de la herramienta por tí mism@.
Semrush
Otra suite de herramientas SEO avanzadas que no debe faltar en el arsenal de todo SEO, tiene muchas opciones para trabajar desde módulos de linkuilding, monitorización de keywords, análisis de campañas SEM… pero en concreto uno, que nos ayudará a encontrar y resolver problemas de thin content que es el Analyzer Content.
Aunque también podemos, ya de paso analizar toda la salud del sitio completo con la herramienta de Site Audit, que nos hace un chequeo completo al sitio en busca de errores de contenido, enlazado, etiquetas, etc.
Es cierto que la cuota mensual de Semrush es la más elevada de las tres herramientas que hemos visto, pero si te dedicas profesionalmente al posicionamiento web le sacarás mucho partido y pagarás gustosamente cada euro de su licencia por todo el tiempo que te va a ahorrar en tareas, podrás hasta generar informes de forma automática para enviar a los clientes por correo, también de forma automática.
Solucionar el thin content
Ya hemos detectado los posibles problemas de contenido de baja calidad en nuestra web que están lastrando nuestro crecimiento pero eso no nos servirá de nada sino nos ponemos manos a la obra a resolverlos, así que sigue leyendo para pasará a la acción.
Genera contenido de calidad
¿Es de cajón, no? Pero a veces, como hemos visto, el thin content no se genera porque hayamos redactado texto de baja calidad, sino por página automatizadas (paginaciones, páginas de autor, tags….), contenido duplicado (interno o externo), es decir, por otros motivos que han podido escapar a nuestro control, por lo que crear contenido de calidad no siempre es garantía de no tener thin content.
Limita las páginas que Google indexa
Lo mejor que puedes hacer para controlar los problemas de thin content en tu web es controlar completamente las páginas que Google puede rastrear e indexar en tu web. Como hemos visto, el generar contenido fresco, único, original y de calidad no siempre te va a librar de los problemas asociados al thin content, pero controlar al milímetro aquellas URLs o páginas que Google puede ver sí, porque de esta forma
Robots.txt – Ya deberías conocer este importante archivo para el SEO que nos permite controlar qué directorios o páginas de nuestro sitio queremos que los rastreadores puedan acceder e indexar y cuáles no. Su uso es muy sencillo, basta con colocarlo en el directorio raíz y donde será consultado con por los crawlers, así que es buena idea añadir la ruta de los sitemaps para que sean más fácilmente accesibles.
Disallow: /wp-admin
Disallow: /author/
Disallow: /tag/
Disallow: /comments/
#Sitemap
Sitemap: https://tuweb.com/sitemap.xml
Una de las configuraciones más comunes de robots.txt si usas WP, con esas reglas estamos bloqueando el acceso a los rastreadores a la administración, al contenido de autores, etiquetas y comentaros, que como visto antes, podría generar problemas de thin content. También le indicamos la ruta completa donde encontrar el sitemap (además de poderlo enviar a GSC).
Si tienes dudas sobre sus reglas de uso o directivas, antes de tocar nada, puedes echar un ojo a la documentación disponible de Google.
Noindex – La meta etiqueta robots nos permite indicarle a los buscadores que no queremos que esa página se indexe ni se muestre en los resultados de búsqueda, podemos limitarlo a un buscador específico (limitando su crawler en concreto) o a todos los crawlers en general.
Con esta etiqueta (noindex) le estamos indicando a todos los robots o crawlers que no indexen ni muestren en los resultados esa página. Esta etiqueta deberíamos incluirla en páginas como Aviso Legal, Contacto, Política de Privacidad, páginas de contenido pobre, páginas con keywords que no tienen búsquedas, etc.. Páginas que no aportan valor a los usuarios que busquen en Google.
Pero, a ver, ambas técnicas sirven para bloquear la indexación de URLs o páginas en Google, ¿cuál es la diferencia entre robots.txt y noindex a la hora de no permitir indexar una URL?
Pues es muy sencillo, toma robots.txt como la opción ideal para bloquear la indexación de muchas URLS, usando reglas y expresiones regulares para bloquear el acceso a un directorio completo por ejemplo que contenga miles de URLs. Pero recuerda un cosa muy importante (¿No darle de comer después de media noche? No, no eso es de otra película!) los buscadores no rastrearán las páginas bloqueadas desde robots.txt salvo que estén enlazadas desde una página indexada, en ese caso el bloqueo no tendrá efecto.
La opción de noindex es la ideal para bloquear la indexación de páginas concretas, es más efectiva que robots.txt, porque recuerda, que robots.txt son sólo recomendaciones para los crawlers de los buscadores y podrían no tomarlos en cuenta, además una página aunque esté bloqueada en robots.txt si recibe un enlace de una página indexada será indexada.
No uses ambas técnicas a la vez porque no tendrán efecto , es decir, si bloqueas las páginas contenidas en dominio.com/tienda, pero a la vez añades etiquetas noindex a las páginas allí alojadas, por ej dominio.com/tienda/pagina1.html, los rastreadores no podrán ver esa página y no leerán la etiqueta noindex.Desindexa las páginas que Google ya tiene indexadas
A veces, desindexar una URL o página del índice de Google puede llevar demasiado tiempo, y si tienes cientos de miles de URLs querrás hacerlo lo más rápido posible, para eso te dejo un pequeño truquito que te ayudará a acelerar el proceso de desindexación de páginas.
Se trata de aprovechar el valor que da Google a los sitemaps que le enviamos desde GSC, y crear uno para las páginas que queremos desindexar, es decir, sería un sitemap que contendrá todas las URLs con la etiqueta noindex (puedes crearlo con Screaming Frog) y subirlo a los sitemaps de GSC, forzando así a Google a rastrear todas esas páginas y no indexarlas ya que detecta la etiqueta noindex.
Como siempre mucho contenido de calidad Iván. Muchas gracias por la información completa y colorida que lo hace fácil de leer ?.
Justo trabajo con un sitio que tiene mucho thin content, ya lo identifique y mi pregunta es ¿borraría esos post y pondrías la redirección a la categoría? O ¿los pondrías en no index y borrarlos de Google?
Nos estamos leyendo.
Hola Eric, depende del caso, si ese contenido pertenece a un una temática pilar ya existente le haría un 301 al post más similar que tengas, y si el contenido da para reciclarlo y añadirlo a ese port destino mejor aún.