1 Followers
26 Following
frogbanker81

frogbanker81

SPOILER ALERT!

¿Cómo filtrar el tráfico no deseado en Google Analytics?

¿Por qué es esencial filtrar el tráfico no deseado o bien tráfico basura (visitas SPAM)?


Dicen que una imagen vale más que mil palabras, así que empezaré este artículo con la siguiente imagen a fin de que comprendáis la relevancia y el impacto que el tráfico no deseado puede tener en nuestras estrategias:








Esta gráfica corresponde a un sitio real que, en unos pocos días, casi triplicó el número de visitas a páginas.


La primera sensación ante semejante comportamiento es una mezcla de sorpresa y euforia, mientras una pregunta revolotea sobre nuestra cabeza:
“¿qué ha pasado?”


Si ves una gráfica así en tu sitio web, seguro que revisas tu registro de actividades y acciones de tu estrategia de difusión, promoción o bien posicionamiento del sitio web, para localizar una explicación a ese desarrollo.


Y, casi siempre y en todo momento, encontrarás algo que coincida en el tiempo con este cambio y que, legítimamente, lo justificaría, como la publicación de un artículo en el que te esforzaste en especial, una revisión en la, un cambio en la estrategia Social Media o el comienzo de una nueva campaña, por poner algunos ejemplos más que posibles.


Si te prosigues llevando por la euforia, estimas que has atinado de manera plena en el cambio o bien ampliación de tu estrategia y, claro, continúas con ella...


Hasta que múltiples semanas después observas que esta explosión de visitas no viene pareja con el incremento de otras métricas mucho más relevantes y, al final, las que realmente importan: por servirnos de un ejemplo, que las conversiones mantienen un mismo nivel.


Ahora cambian las sensaciones.


De la euforia pasamos a la zozobra, de la alegría a la desazón, mientras que nos hacemos esta pregunta:
“¿qué está pasando?”.


Y pensamos que puede ser uno que las palabras clave no están optimizadas para la conversión...


Pero, ¿y si todo el problema hubiera estado en esa primera gráfica?


Veamos ahora la siguiente gráfica, del mismo sitio web, en exactamente las mismas datas y exactamente la misma métrica:








En este informe vemos la comparación entre dos gráficas: la gráfica azul corresponde con la primera que vimos, mientras que la gráfica naranja representa exactamente la misma métrica mas filtrando el tráfico basura.


Como veis, apenas hubo un cambio significativo en su comportamiento y todas las decisiones que hubiéramos tomado a partir de la primera gráfica habrían estado destinadas al fracaso, dado que partían de supuestos falsos.


El tráfico no deseado suministra información falsa a la analítica web que nos hará tomar decisiones estratégicas equivocadas.


¿Podemos detectar y evitar el tráfico no deseado?


Visto el gran impacto que el tráfico basura y el Ghost Spam en particular, pueden tener en nuestras estrategias, lo primero que nos planteamos es si podemos advertir y quitar este tráfico basura y si existe algún método para evitarlo.


En los dos casos, la respuesta es positiva.


Solo así habría sido posible conseguir la gráfica comparativa en el apartado anterior.


Ahora bien, ¿cómo lograrlo?


Nuestro inconveniente de interpretación del número de visitas se generó por el hecho de que nos habíamos limitado a los resultados globales en esta métrica, sin entrar a analizar más de forma profunda el origen exacto de su radical incremento.


En otras palabras, ¿qué provocó esa subida?


Pero si consultamos las tablas con datos más detallados en Analytics, habríamos observado
dos entradascon información algo desconcertante a primera vista:








Son varios los datos de esta tabla que llaman la atención:


  1. Nunca ya antes había habido visitas desde la dirección lifehacker.com, donde, además, la “k” no es una “k” real, sino más bien un carácter con esa apariencia.
  2. Tampoco habíamos tenido visitas anteriormente desde la dirección reddit.com.
  3. Ambos muestran porcentajes de rebote cercanos al 0 por ciento visitando dos páginas, prácticamente en números redondos por sesión. ¿Tanto interés despertaba, de repente, el sitio?
  4. El porcentaje de nuevas sesiones rondaba el 90 por ciento . No es que sea demasiado atípico, pero tampoco es un valor habitual para el sitio web (que ronda entre el sesenta-70 por ciento ).

Veamos ahora cuáles serían esos datos si desechamos (filtramos) las visitas pertinentes a estas direcciones:








¡Increíble! De 489 visitas entre ambos, hemos pasado a 0 visitas.


Además, si estudiamos un poco por Internet, encontramos que hayque procede de la dirección lifehacker.com y reddit.com.


Hemos dado puesto que, con el origen de nuestros males y, de ahora en adelante, podemos configurar nuestro servidor o Analytics a fin de que los datos relacionados con ese spamming sean filtrados, tanto de los informes de resultados globales como de las propias tablas de datos.


Esta situación que he descrito no es tan infrecuente como puede parecer.


La mayoría de los webmasters, singularmente los dueños de sitios pequeños e inclusive medianos, están centrados en el desarrollo de su modelo de negocio, no tienen por qué ser expertos en analítica web ni acostumbran a tener el tiempo suficiente.


Por tanto, su analítica web vira fundamentalmente en torno a los resultados y comportamientos globales, sin ser siendo conscientes de lo que se “cuece” por debajo, de lo que puede llegar a representar o a afectar a su negocio, ni cómo solucionar cualquier anomalía o bien aberración en el análisis.


Los webmasters deberían repasar periódicamente las visitas de su página web y saber cómo identificar cuáles pueden corresponder a spammers.


La mayoría de las veces, copian soluciones para filtrar el tráfico basura publicado en weblogs o sitios especializados, con la esperanza de que resuelvan el inconveniente y con cierta resignación de que no pueden hacer mucho más.


Sin embargo, muchas veces estas soluciones solo palian parte del inconveniente, puesto que no se amoldan a las visitas específicas de su sitio web, esto es, que tenga filtros para visitas spam que el lugar no está recibiendo mas, en cambio, no tengan filtros para las que sí está recibiendo.


Por este motivo, los webmasters deberían efectuar tareas básicas de análisis de las visitas que están teniendo, para ser capaces de identificar cuáles pueden corresponder a potenciales fuentes de spam y crear ellos mismos los filtros para que no contaminen el análisis de los resultados globales.


Posibles fuentes de tráfico no deseado


Habréis observado que hasta he utilizado un tanto indiferentemente tráfico no deseado, tráfico basura y Ghost Spam, mas ¿es lo mismo?


En realidad, se podría decir que todo Ghost Spam es tráfico basura pero, no todo el tráfico basura es Ghost Spam por el hecho de que hay otros tipos de tráfico no deseado que pueden trastocar el análisis de los informes de Google Analytics:



  • Nuestras propias visitas al sitio web



Nuestras propias visitas al sitio web


No es tráfico basura como tal, mas sí que son visitas que Analytics contabiliza y, si suponen un porcentaje significativo del total, pueden distorsionar los informes de análisis.


O simplemente Crawler Spam.


Visitan y, en general, recorren todo el sitio web con algún propósito, ya sea bueno (buscadores) o malo (hackers).


El más peligroso de los tres pues, de ahí su nombre (“fantasma”), en realidad no visitan al sitio, sino se hacen con él (en cierta manera).


Veamos ahora cada uno con más detalle...


► Provenientes de nuestras propias visitas


Este tráfico no deseado no se puede estimar “spam” en el riguroso sentido de la palabra, mas debemos evaluarlo para valorar su posible impacto en la tendencia general de las visitas totales de nuestro sitio.


Para sitios webs grandes y decenas de miles de visitas cada día en el cómputo general, el impacto de nuestras visitas al sitio o, por extensión, del equipo desarrollador del sitio, suele ser bastante pequeño y puede ignorarse por su escaso impacto.


En sitios webs más pequeños, con unos pocos cientos o bien miles y miles de visitas, puede darse la situación de que nuestras visitas supongan un porcentaje significativo del total.


Si nuestras visitas se mantuvieran más o bien menos constantes a lo largo del tiempo, quizás no resultaría demasiado problemático, puesto que no afectarían a la tendencia general de las visitas totales.


Sin embargo, lo habitual es que visitemos nuestro sitio web con una mayor frecuencia cuando acabamos de lanzar una novedad, estamos revisando nuevas funcionalidades o bien ¡cómo no! las primeras semanas después de haberlo lanzado por el hecho de que, ¿quién puede resistirse a ver cómo está medrando su nueva criatura?


Esto quiere decir que a lo largo de esos días o bien semanas nuestras visitas tendrán un impacto más significativo en nuestras estadísticas y pueden alterar la tendencia de las visitas totales.


Así, agencia de branding madrid , también descenderán las visitas totales, lo que nos puede llegar a hacer creer que hacemos algo mal con nuestras estrategias.


Nuestras propias visitas a nuestro sitio pueden afectar a la interpretación y análisis de los datos de visitas de Analytics.


Para que os hagáis una idea del impacto que las visitas propias pueden tener, la siguiente gráfica muestra la comparación de las visitas totales, sin filtrar, que un sitio web recibía durante sus primeras semanas, a fines de dos mil quince, respecto a las visitas descontando las efectuadas por el propietario del lugar web:








Como podéis ver, en ciertos instantes las visitas propias pueden suponer la práctica totalidad de las visitas del sitio.


Hay diferentes métodos para filtrar laspero, a menos que tengamos una configuración de navegador muy concreta o bien una dirección IP fija, solo tienen efecto desde el instante en que son creados o bien activados.


Aunque algunos de estos métodos no son triviales, existen(plugins) disponibles para los navegadores más extendidos, que hacen este filtrado a la perfección.


Por tanto, mi recomendación es que, si no filtráis vuestras propias visitas, lo hagáis lo antes posible, sobre todo, si no tenéis un volumen muy alto de visitas totales.


► Provenientes de Crawler (Referral) Spam


En su faceta positiva, los
Crawlers o bien rastreadores, son las aplicaciones informáticas que los buscadores emplean para visitar todas y cada una de las páginas de un sitio y parsearlas (“leerlas”) con el fin de indexarlas y posicionarlas cuando los usuarios hagan búsquedas relacionadas con esas páginas.


Estos rastreadores suelen respetar una serie de reglas de “buena urbanidad”, en el sentido de que no hacen más visitas que las verdaderamente necesarias, para no sobresaturar al servidor web ni efectuar muchas visitas en un margen de tiempo demasiado pequeño.


Además, estos rastreadores, como prueba de su buena educación, respetan lo que les afirmemos en el fichero robots.txt, que puede supervisar y restringir qué páginas visitan y cuáles no.


En general, no deberíamos preocuparnos demasiado por estos rastreadores, gracias a sus buenas prácticas, mas como pueden ser muchos rastreadores diferentes los que pueden visitarnos, el efecto acumulado de sus visitas sí que puede ser significativo.


Afortunadamente, Google Analytics da un mecanismo para filtrar estas visitas, a través de los siguientes pasos:


  1. Seleccionar la pestaña de
    “Administrador”en el menú superior de Google Analytics.
  2. Seleccionar la
    cuenta,
    propiedady
    vista del sitio webdonde queráis filtrar las visitas de los rastreadores.
  3. Seleccionar la opción
    “Ver configuración”bajo la columna de la vista elegida.
  4. Marcar la opción
    “Excluir todos y cada uno de los hits de robots y de arañas conocido”y pulsar el botón
    “Guardar”.







Sin embargo, no todos los rastreadores son tan “benévolos”, sino que también tienen su Lado Oscuro.


Hay multitud de rastreadores que bullen por Internet con malas intenciones y que, claro, no van a ser tan “considerados” como para respetar las normas de “buena urbanidad” o bien del fichero robots.txt.


Los Crawler Referral Spam realizan visitas reales a los sitios web y no respetan las instrucciones del fichero robots.txt del servidor.


Por ejemplo, por mentar ciertas de sus malas acciones, pueden rastrear páginas y sitios para hallar vulnerabilidades de seguridad y hackearlos o parsear el contenido para buscar direcciones de correo electrónico, números de teléfono o bien otros datos de contacto para campañas de marketing abusivas.


► Procedentes de Ghost Spam


Los 2 géneros de Spam que hemos visto anteriormente tienen una característica común: producen visitas “reales” en el sitio.


Pueden parecer una nimiedad mas esta propiedad hace que tengamos más alternativas para tratar contra ellos, como vamos a ver más adelante.


Sin embargo,
los Ghost Spam no visitan verdaderamente el sitio web, sino que interactúan de forma directa sobre los servidores de Google Analytics, haciéndoles opinar que nuestro sitio web ha recibido una visita.


Comprendamos mejor cómo funcionan los Ghost Spam y cómo engañan a los servidores haciendo un breve recorrido de la mecánica del seguimiento y registro de visitas que hace Analytics.


Una visita “verdadera” a un sitio, que tiene el código de seguimiento de Analytics en la cabecera de sus páginas, se registra en los servidores de Google a través de los siguientes pasos:


  1. La visita accede a una página web.
  2. El navegador carga y ejecuta el código de seguimiento de Analytics.
  3. Google Analytics y el servidor web de esa página intercambian información relativa a esa visita.

En cambio, una visita “fantasma” se brinca los dos primeros pasos y se hace pasar por el servidor web para ese intercambio de información, usando el identificador “UA-XXXXXXXX-X” que todos los códigos de seguimiento incluyen (único para cada sitio web):



(function(i,s,o,g,r,a,m)i['GoogleAnalyticsObject']=r;i[r]=i[r]function()

(i[r].q=i[r].q[]).push(arguments),i[r].l=1*new Date();a=s.createElement(o),

m=s.getElementsByTagName(o bien)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)

)(window,document,'script','//-analytics.com/analytics.js','ga');

ga('create', 'UA-XXXXXXXX-X', 'auto');

ga('send', 'pageview');


Quizás os preguntéis cómo Google puede dejarse “engañar” así, mas la culpa no es de Google, sino podríamos decir que se debe a un “imperativo técnico”.


Para que el código de seguimiento sea ejecutado por el navegador del usuario visitante, debe estar perceptible y en abierto, lo que quiere decir que, por servirnos de un ejemplo, cualquier rastreador puede parsear la página y extraer el código Analytics pertinente a un sitio web.


Por otro lado, tampoco es preciso que el Ghost Spammer rastree nuestras páginas para leer su código Analytics.


Puede simplemente generar aleatoriamente un identificador UA que, por casualidad, coincida con el nuestro y ejecutar un script afín al nuestro.


En realidad, todo el proceso es algo más complicado que esta explicación tan resumida, mas nos sirve para hacernos una idea bastante aproximada del funcionamiento de los Ghost Spam.


Como el Ghost Spam no visita los sitios web, solo podemos contrarrestarlos desde Analytics, jamás en el servidor web.


La primera consecuencia de este modo de actuar es que no podemos filtrar el Ghost Spam desde el servidor web (como los otros dos géneros de Spam), puesto que no interviene en todo el proceso, sino más bien solo a través de Google Analytics.


De ahí, en consecuencia, la necesidad de que sepamos cómo identificar y filtrar esas visitas fantasma examinando los datos compendiados por Analytics.


Métodos para filtrar el tráfico no deseado (incluido el Ghost Spam)


En este apartado nos vamos a centrar en el tráfico no deseado procedente de Crawler Referral Spam y Ghost Spam, los más perjudiciales con gran diferencia.


Los métodos que veremos aquí se pueden dividir en
dos conjuntos generales:


  • Los que tienen efecto sobre el
    spam producido por visitas realesal sitio web (esto es, el Crawler Referral Spam): archivos robots.txt y .htaccess.
  • Aquellos que actúan sobre el
    spam que no realizan visitas realesal sitio (esto es, el Ghost Spam): Filtros en la vista de datos y Segmentos con filtros.

La diferencia esencial entre ambos conjuntos es que, con el primero, podemos tomar medidas de contención en los propios servidores de alojamiento web, eludiendo que visiten el sitio web.


Mientras que, con el segundo, los servidores de alojamiento web jamás tienen perseverancia de tales visitas, por lo que dichas medidas sólo pueden aplicarse desde en el propio Google Analytics.


Para explicar cómo emplear estos métodos con ejemplos reales, vamos a suponer que hemos detectado que nuestro sitio está recibiendo tráfico web no deseado de las 3 siguientes fuentes, reconocidas como spam: , y


► A través del fichero robots.txt


El archivo robots.txt es un fichero de texto que se halla en la carpeta raíz de un sitio y establece una serie de pautas y condiciones a los rastreadores que visitan un sitio.


Desde qué carpetitas y ficheros pueden rastrear (por servirnos de un ejemplo, para indexarlos en un buscador) hasta qué rastreadores tienen “permiso” para acceder a ese sitio web.


¿Cuál es el principal inconveniente de este archivo?


Que los rastreadores no están obligados a acatar sus instrucciones.


En general, los rastreadores “buenos” (como los de los buscadores web que todos conocemos) sí que seguirán los comandos del archivo robots.txt, pero... nuestro oponente no son estos rastreadores, sino más bien los que producen excesivo tráfico no deseado.


Y, como habréis adivinado, un rastreador con malas pretensiones no va a hacer mucho caso de lo que pongamos en el robots.txt.


Sería como poner un cartel de “No entrar” en la puerta de nuestra casa: quien no tenga intención de hurtarnos no entrará, mas el ladrón ni se parará a leerlo.


Los comandos del robots.txt no son obligatorios a los rastreadores, por ende, no podemos utilizarlo para impedir tráfico no deseado.


Entonces, ¿por qué miento este archivo si, en el momento de la verdad, no sirve para filtrar los spam?


Porque, aún a día de hoy, se pueden encontrar bastantes artículos que describen el archivo robots.txt como un método de control para impedir a los rastreadores el acceso a ciertas o bien a todas y cada una de las carpetas y archivos del servidor web.


Por tanto, olvidaos de este archivo como método para filtrar tráfico no deseado y centraos únicamente en los que vienen a continuación.


► A través del archivo .htaccess


Al igual que el robots.txt, el archivo .htaccess también es un fichero de texto que se halla almacenado en el servidor web y contiene una serie instrucciones y comandos.


Sin embargo, no están dirigidos a los rastreadores, sino al propio servidor web, que debe acatarlos obligatoriamente.


Es decir, ya no queda al albedrío de los rastreadores el acatar o bien no dichas instrucciones, sino el servidor web las debe realizar para cada visita que reciba, independientemente de su origen.


Por su propia definición, el .htaccess solo tendrá utilidad para limitar el tráfico no deseado que produce visitas reales al servidor web, o sea, el Crawler Referral Spam.


No hay forma de impedir el Ghost Spam con este archivo.


El servidor web asegura la ejecución de los comandos del .htaccess, con lo que podemos emplearlo para impedir visitas de Crawler Spam.


Antes de proseguir, un mensaje de aviso muy importante: además de permitir quiénes pueden acceder o no a nuestro sitio web, el fichero .htacces controla otras muchas áreas vitales del servidor web.


Un comando erróneo, incluso una errata en este archivo puede provocar que nuestro sitio web o una parte de él deje de marchar adecuadamente.


Por tanto, cuando modifiquemos este archivo, siempre debemos tener a mano una copia de su última versión operativa para, en el caso de error, poder restaurarla rápidamente y dejar el servidor tal y como estaba antes de cualquier cambio.


Con estas cautelas, veamos ahora cómo configurar el .htaccess para recortar el acceso de las visitas spam generadas por , y


Antes de nada, debemos tomar en consideración que el archivo .htaccess puede contener líneas de comandos generados por el gestor de contenidos que estemos usando.


Normalmente, estos comandos aparecen al comienzo del archivo de texto, adecuadamente comentados.


Por ejemplo, posicionamiento web en tarragona añade las siguientes líneas al comienzo del .htaccess:



# BEGIN Wordpress

<IfModule mod_rewrite.c>

rewriteEngine On

rewriteBase /

rewriteRule ^index.php$ - [L]

rewriteCond por ciento REQUEST_FILENAME !-f

rewriteCond por ciento REQUEST_FILENAME !-d

rewriteRule . /index.php [L]

</IfModule>

# END WordPress


Es esencial que no toquemos estas líneas y que las dejemos tal como están, sin añadir ningún comando ya antes ni dentro del bloque enmarcado entre las líneas de comentarios
# BEGIN WordPressy
# END WordPress.


Ahora, a continuación de este bloque de instrucciones creado por el gestor de contenidos, copiar el siguiente bloque de texto:



RewriteRule ^(.*)$ - [F,L]

</IfModule>

# FIN Bloquear el Crawler Referral Spam


Dentro de este bloque (después del comentario
## Aquí se introducen...), debemos añadir una línea por cada spammer que deseemos impedir el acceso al sitio web.


Por ejemplo, para
escribiríamos:



RewriteCond por cien HTTP_REFERER ^https?://.*ilovevitaly.ru/ [NC,OR]


Es decir, agencia de comunicación en vigo (ilovevitaly) y su extensión (.ru) en los parámetros pertinentes de este comando.


El patrón es afín para las otras dos direcciones:



RewriteCond por ciento HTTP_REFERER ^https?://.*kambasoft.com/ [NC,OR]

RewriteCond por ciento HTTP_REFERER ^https?://.*darodar.com/ [NC,OR]



¡Mucho ojo!


Escribid TODOS los caracteres tal y como se muestran (como los puntos, interrogaciones, etcétera), sin intercalar espacios en blanco, salvo los que aparecen.


Cualquier omisión puede cancelar el funcionamiento del comando de bloqueo.


El bloque completo quedaría como sigue:



# INICIO Bloquear el Crawler Referral Spam

<IfModule mod_rewrite.c>

RewriteEngine on

## Aquí se introducen las direcciones web de los spammers:

RewriteCond por ciento HTTP_REFERER ^https?://.*ilovevitaly.ru/ [NC,OR]

RewriteCond por cien HTTP_REFERER ^https?://.*kambasoft.com/ [NC,OR]

RewriteCond por cien HTTP_REFERER ^https?://.*darodar.com/ [NC]

RewriteRule ^(.*) dólares americanos - [F,L]

</IfModule>

# FIN Bloquear el Crawler Referral Spam


Para acabar, una última consideración.


Observad que en el último comando RewriteCond (el pertinente a darodar.com), solo aparece el parámetro “[NC]”, en lugar de “[NC,OR]”.


Esto es debido a que el siguiente comando no es otro RewriteCond, sino más bien el comando RewriteRule.


El parámetro “OR” solo lo incluimos para concatenar comandos RewriteCond sucesivos.


Como veis, es bastante fácil configurar el fichero .htaccess para bloquear el acceso a los Referral Spam.


Sin embargo, a continuación veremos que también es muy fácil filtrarlo en Analytics.


Por tanto, ¿qué sistema es mejor para quitar esta clase de tráfico no deseado?


En su cometido, ninguno es mejor que el otro y escoger uno o bien otro depende de nuestras preferencias.


Personalmente, prefiero usar solo los filtros de Google Analytics por las próximas razones:



  • Toda la gestión de tráfico no deseado está centralizada en una única herramienta, no en 2 lugares separados y también independientes, con lo que solo tengo que trabajar en un entorno.

  • Evito tener que estar modificando el archivo .htaccessy cometer algún fallo que pueda afectar la navegación del sitio web. Al tiempo que un fallo en los filtros de Analytics ni afecta a la navegabilidad ni se pierden datos de las visitas recibidas.
  • Al limitar el acceso en el .htaccess, no hay una forma fácil de
    saber si recibo un elevado número de visitas de Referral Spam, puesto que no se reflejarían en Analytics y no podría adoptar otras medidas de protección.

Aunque un buenproporciona mecanismos de detección y protección contra las visitas masivas de los spammers, las dos primeras razones son de suficiente peso para mí como para que no utilice el fichero .htaccess para bloquear el Crawler Referral Spam y lo haga todo en Analytics.


Filtros en la vista de datos de Google Analytics


Todos los datos recopilados por Google Analytics para un sitio se reúnen en las vistas, en las que configuramos cómo queremos gestionar, examinar y repasar dichos datos.


Entre las múltiples operaciones que podemos hacer con las vistas, una de ellas es la creación de filtros, para restringir o descartar qué datos se van a compilar en esa vista.


Por tanto, nos puede servir para filtrar las visitas de los spammers pero no solo el Crawler Referral Spam, sino también el Ghost Spam, puesto que trabajamos sobre datos de Analytics y no sobre las visitas reales del sitio web.


Ahora bien, no deberíamos sin más, crear un filtro en la vista principal de nuestro sitio web, pues estos filtros descartan absolutamente los datos filtrados, sin posibilidad de recuperarlos y siempre y en toda circunstancia deberíamos tener una vista con todos los datos, sean buenos o malos, por si acaso los necesitáramos para futuros análisis o cometiéramos un fallo con algún filtro.


Así que, el paso inicial consiste en crear una nueva vista desde la pestaña de Administrador, para la cuenta y propiedad de nuestro sitio web:









  • Filtrando los Crawler Referral Spam



Filtrando los Crawler Referral Spam


Una vez hayamos creado la vista, la elegimos y pulsamos
“Filtros”:








Google Analytics nos mostrará la lista (aún vacía) de filtros de esta vista:








Pulsamos el botón
“+ Añadir filtro”, y rellenamos los datos del nuevo filtro con los próximos datos, en la secuencia numérica que se señala, para filtrar las visitas del spammer :








Una vez introducidos estos datos, pulsamos el botón
“Guardar”y ya tenemos guardado el filtro para esta vista:








Ahora podríamos proceder igual con el resto de spammers y crear un filtro para cada uno de ellos de ellos, sin embargo, esta solución no es la idónea.


Con el tiempo, el número de spammers puede crecer, de forma que acabaríamos con decenas de filtros, resultando en una larga lista de filtros.


Para evitarlo, podemos emplear expresiones regulares a lo largo de la creación del filtro, para apuntar no solamente la dirección de un único spammer, sino de múltiples.


De esta forma, el filtro se aplicaría a todos .


Aunque las expresiones regulares pueden adoptar patrones muy complejos, siempre recomiendo usar la expresión menos compleja posible, incluso a costa de hacerla más larga, a fin de que sea muy fácil de entender y a simple vista observemos rápidamente cualquier errata.


En nuestro ejemplo, la expresión regular más sencilla que recoge las 3 direcciones de spam quedaría como: “ilovevitaly.ru|kambasoft.com|darodar.com” (la barra invertida es necesaria para marcar el punto, “.”, de la dirección) y el filtro se vería así:








Desde el momento de creación del filtro, esta vista solo recogerá aquellas visitas que no cumplan la condición del filtro, aunque siempre y en toda circunstancia vamos a poder preguntar los datos completos de todas las visitas accediendo a la vista original que hemos dejado sin filtros.


Aunque la configuración precedente de filtros también se puede utilizar para filtrar los Ghost Spam, no es el sistema más eficaz.


Sobre todo, si tenemos en consideración que de forma continua surgen Ghost Spammers con nuevos nombres y direcciones, lo que haría interminable la lista de filtros.


Afortunadamente, tenemos una opción alternativa que aprovecha un defecto de los Ghost Spam, debido a que no visitan nuestro sitio web: sus visitas no tienen asociado un nombre de host o, si lo tuviesen, no estaría relacionado con el sitio web.


En general, el nombre del host será la dirección del sitio pero, puede haber nombres de hosts válidos en función de los servicios que utilice el sitio o cómo esté configurado.


La mejor forma para comprobarlo es a través de los Informes de Analytics, tal como muestra la figura siguiente:








En este caso, sólo aparece un nombre de host válido, el correspondiente a mi dirección web.


El resto no guardan relación con mi web ni tengo ningún tipo de relación con ellos.


Con esta consideración, tan solo debemos crear un nuevo filtro (en exactamente la misma vista donde creamos el precedente filtro) para que solo recopile aquellos datos que tengan un nombre de host adecuado, con la próxima secuencia de acciones:








Con lo que tendríamos nuestra vista con los dos filtros:








Segmentos con filtros en Google Analytics


A la hora de gestionar y examinar los datos, la utilización de vistas con filtros presenta
dos limitaciones:



  • La vista y los filtros solo tienen efecto en los datos a partir del momento en que son creados



La vista y los filtros solo tienen efecto en los datos desde el instante en que son creados


Es decir, una nueva vista no dispone de datos anteriores a su creación y un nuevo filtro solo filtra los datos siguientes a su creación.



  • No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar



No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar


Por ejemplo, la gráfica comparativa que vimos en la primera sección, sino tendríamos que hacerlo “a ojo” en dos ventanas separadas del navegador, una para cada vista.


Para superar estas limitaciones, podemos usar segmentos, creando filtros similares a los que hicimos con las vistas, mas con la peculiaridad de que tienen efecto sobre todos los datos recopilados en la vista actual, independientemente de cuándo fuera creado el segmento o bien el filtro.


El proceso es muy sencillo:


  1. Pulsamos en la pestaña
    “Informes”y, en la
    Visión general de audiencia, pulsamos la barra
    “+ Agregar segmento”:







  1. Pulsamos el botón rojo
    “+ CREAR SEGMENTO”.
  2. Seleccionamos
    “Condiciones”en las opciones avanzadas y añadimos 2 filtros tal y como se muestra en la próxima imagen:







  1. Pulsamos el botón
    “Guardar”.

Observad que en un mismo segmento hemos creado los dos filtros que necesitábamos:


  • Para el Ghost Spam (recuadro 3), eligiendo el
    “Nombre de host”e introduciendo la expresión regular de las direcciones web válidas (en un caso así, sólo el nombre de dominio del sitio web).
  • Para el Crawler Referral Spam (recuadros 4-6), el filtro tiene dos condiciones que deben cumplirse simultáneamente (la “Y” del recuadro cinco).Por un lado, debemos escoger la
    “Fuente”e introducir la expresión regular de las direcciones de los spammers. Además, hay que elegir el
    “Medio”para apuntar que debe ser de tipo
    “Referral”.

A medida que vamos creando los filtros, el cuadro resumen de la derecha va mostrando el porcentaje y número de usuarios y de sesiones que pasan los filtros.


En este caso, el 47,70 por ciento de usuarios no cumple ninguna de las condiciones de los filtros y son visitas “legales”.


Una vez creado el segmento, tan solo precisamos seleccionarlo a fin de que los informes no incluyan datos de visitas de spammers:








¿Cómo advertir el tráfico basura?


Ahora que sabemos los modelos de tráfico basura que podemos encontrar en Analytics y cómo descartarlos en nuestra analítica web, la próxima pregunta que brota es, ¿cómo saber que unas determinadas visitas son producto de un spammer?


De todas las tareas y configuraciones que hemos visto hasta el momento, examinar los datos recopilados por Analytics para hallar cuáles pueden corresponder a un spammer puede resultar la más complicada y aburrida.


¿El motivo?


No hay una regla fija que nos deje identificar con certidumbre y rotundidad que una determinada visita la efectúa un spammer, sino una serie de pautas y comportamientos sospechosos que pueden darnos indicios de que se están generando.


En líneas generales, no deberíamos preocuparnos por el Ghost Spam, en tanto que como hemos visto, presenta el defecto de usar un nombre de host inválido o bien que no está relacionado con nuestro sitio, con lo que el filtro que hemos creado puede confrontarlos perfectamente.


El inconveniente puede venir, entonces, de los Crawler Referral Spam que cambien o usen nuevos nombres o direcciones de origen (“Fuente de campaña”, en los filtros), con lo que vamos a deber, primero identificarlos y segundo, actualizar las expresiones regulares de los filtros.


Para identificarlos, no nos queda otro antídoto que examinar periódicamente la gráfica y los informes del “Tráfico de referencia”:








Sobre estos datos, debemos comprobar si se presenta alguno de los siguientes comportamientos sospechosos de spamming:



  • Crecimiento desmedido del número de sesiones o bien de visitasdesde una misma referencia, que es el caso que os presentaba como introducción en este artículo. Muchas veces, éste será el primer rastro de que algo anómalo está pasando.

  • Nombres de fuente (direcciones URL) sin sentidoo de los que no cabe esperar que nos referencien (columna “Fuente”). Por servirnos de un ejemplo, en la tabla precedente, abc.xyz o bien reddit.com serían sospechosos. No obstante, t.co o plus.google.com sí que serían válidos, pues es muy normal que nos referencien desde Twitter o Google+.

  • Porcentaje de rebote irreal, tanto próximo al cien por ciento como al 0 por ciento . El porcentaje de rebote varía mucho de un sitio a otro, en función de muchos factores, mas siempre debería moverse por la zona media, no en los extremos. En la tabla anterior, motherboard.vice.com y site-auditor.online serían sospechosos de spamming.

  • Duración media de la sesión atípica, ya sea pues dura cero o poquísimos segundos o bien múltiples minutos por encima de la duración media. En la tabla precedente, site-auditor.online o addons.mozilla.org se salen del comportamiento típico en este sitio.

  • Porcentaje de nuevas sesiones próximo al 100 por ciento o bien al 0 por cien ,es decir, que prácticamente todas las visitas son de usuarios diferentes o casi todas son de un mismo usuario, respectivamente. Lo normal es que este valor se ubique en una zona media, no en los extremos. En nuestro ejemplo, lifehacker.com o thenextweb.com resultarían sospechosas.

Una vez hayamos identificado algunas fuentes sospechosas de spamming, el siguiente paso sería examinarlas más en detalle.


Por ejemplo, viendo si esa dirección web realmente existe o comprobar que la página web que nos está referenciando exista y sea válida.


Otra posibilidad, más rápida y fácil, es buscar de manera directa en Google+ esas direcciones de los nombres de fuente (por ejemplo, buscando “
abc.xyz spam”).


Si son spammers, lo más seguro es que alguien ya lo haya detectado y escrito acerca de ellos.


Como mentaba al principio, no es una ciencia exacta mas con estas precauciones prácticamente siempre y en toda circunstancia seremos capaces de identificar posibles fuentes de spamming.


Conclusiones


En cualquier estrategia de Marketing Digital, la analítica web da información crucial para determinar la eficiencia de nuestras acciones y el impacto en las visitas de nuestro sitio.


En consecuencia, cualquier adulteración de los datos compendiados por Google Analytics puede resultar en una interpretación errónea de los resultados de la estrategia y hacernos tomar nuevas resoluciones que perjudiquen o limiten el éxito de nuestras campañas.


El tráfico basura o las visitas spam, son la primordial causa de alteración de las visitas de un sitio, haciéndonos opinar que recibimos más visitas de las que realmente están llegando de usuarios reales, además de afectar a otros factores, como el porcentaje de rebote o bien la duración media de las visitas.


El origen del tráfico basura puede generarse por 2 medios:



  • Crawler Referral Spam, que hacen visitas reales al sitio web y, por consiguiente, son detectadas y registradas por el servidor web. Se pueden filtrar tanto en el propio servidor web (mediante el archivo .htaccess) como con filtros en vistas o segmentos de Google Analytics.

  • Ghost Spam, que no visitan el sitio web, sino que interactúan directamente con los servidores de Analytics, simulando que hacen visitas. Como no hacen visitas al servidor web, solo se pueden filtrar en las vistas o segmentos de Analytics.

Nuestras propias visitas al sitio, sin ser tráfico basura como tal, también pueden trastocar la interpretación de los datos de analítica web, con lo que también debemos tomar medidas para suprimirlas.


La detección del tráfico basura no tiene un proceso claro y válido para cualquier circunstancia, sino que debemos fijarnos en una serie de rastros (como el porcentaje de rebote, la duración de la visita o el nombre de la fuente) que puedan identificar algunas visitas como posible spamming.


El administrador web o el analista web debe prestar atención a semejantes rastros para, en caso de observarlos, estudiarlo más pausadamente, determinar si corresponde a spamming o no y actualizar los filtros en caso necesario.


En el artículo hemos visto distintos métodos y filtros para eliminar y advertir el tráfico no deseado o bien tráfico basura, mas como cada maestro tiene su librillo, ¿utilizas otros métodos para detectarlo y eliminarlo?