Diferencias de datos entre GA4 y Looker Studio
Google Analytics 4 (GA4) representa una evolución significativa en el análisis de datos digitales frente a versiones anteriores (Universal Analytics). Entre sus aspectos más relevantes se encuentran su enfoque centrado en el usuario, la incorporación de eventos en lugar de páginas vistas, la integración con BigQuery y la capacidad de rastrear datos de múltiples plataformas.
¿Por qué no vemos siempre la misma información?
GA4 ha incorporado algunas funcionalidades que pueden afectar a los datos que visualizamos dentro de la plataforma:
Muestreos en GA4 (documentación):
Los muestreos en GA4 se refieren al proceso de agrupar datos para realizar análisis de manera más eficiente y a un menor coste.
Google Analytics 4 utiliza muestreos para reducir la carga en la recopilación y el procesamiento de grandes cantidades de datos.
Esto puede afectar la precisión de los informes, ya que se utilizan muestras de datos en lugar de datos completos.
Umbrales en GA4 (documentación):
Los umbrales son valores predeterminados establecidos por GA4 para ciertos informes y análisis.
Cuando los datos no cumplen con los umbrales establecidos, es posible que los informes no se muestren o se agrupen en la categoría "other" o "not set".
Los umbrales varían según el tipo de informe y pueden afectar la precisión y la visualización de los datos en GA4.
Diferencias dentro de GA4: Informes y exploraciones
Dentro de la interfaz de GA4 podemos acceder a los informes nativos o hacer uso de la función Explorar para crear informes personalizados. En este caso, la información que vamos a utilizar también podrá ser diferente. Google lo explica con gran detalle en este artículo.
Los aspectos que pueden condicionar los datos visualizados (y crear discrepancias) son los siguientes:
Los informes y las exploraciones admiten campos diferentes
Los filtros funcionan de forma distinta en los informes y las exploraciones
Diferencias entre segmentos y comparaciones
Diferencias en la fecha
Grandes volúmenes de datos
Recuentos de usuarios bajos
Diferencias al usar modelos de comportamiento
Diferencias en el momento de procesamiento
Recursos relacionados
Google también explica el por qué puede haber discrepancias entre las plataformas de Google Ads y GA4, lo cuál es curioso dado que se trata de herramientas de la misma compañía pero que deja patente que cada cuál mide de una manera distinta.
Antes de terminar este bloque me gustaría también introducir un concepto importante cuando trabajamos en GA4 y es el de cardinalidad.
La cardinalidad se refiere a la cantidad de valores únicos que hay en un conjunto de datos.
En GA4, la cardinalidad se aplica a los parámetros personalizados (custom dimensions) y eventos personalizados (custom events).
Un alto nivel de cardinalidad puede tener un impacto negativo en el rendimiento del informe y puede requerir ajustes para obtener datos precisos.
Diferencias entre GA4 y Looker Studio
Los datos de GA4 pueden ser consultados desde varios sitios:
Interfaz web, que a su vez se diferencia en informes y exploraciones.
API: desde donde conectamos herramientas de terceros para extraer los datos.
BigQuery: que actúa como almacén de datos para almacenar, procesar y analizar la información de GA4 en bruto.
En el caso de Looker Studio, lo que hacemos es conectar con la API de GA4, por lo que es importante conocer las limitaciones e implicaciones que puede tener. Google ha generado una tabla comparativa con los diferentes accesos.
En algunos casos, algunas de las incidencias se han resuelto ajustando o personalizando la dimensión fecha, aunque no suele ser lo más normal.
No hay una regla lineal que podamos aplicar para conocer una posible afectación entre plataformas. En algunos casos, se obtiene un crecimiento y en otro un valor inferior al mostrado en GA4. En la siguiente imagen podemos ver los resultados de un experimento, donde vistas crece, pero sesiones y sesiones y usuarios activo, refleja un valor muy inferior.
¿Por qué ocurre esto y cómo minimizar el impacto?
Puede haber varias explicaciones. A continuación exploramos algunas de las más comunes.
Se han aplicado umbrales de datos
Google Signals es una característica de Google Analytics que permite obtener información sobre los usuarios que han iniciado sesión en cuentas de Google y proporciona datos agregados y anónimos sobre su comportamiento en diferentes dispositivos. En algunos casos, Google aplica umbrales a los datos para garantizar el anonimato de los usuarios.
Esto sólo ocurre en la interfaz web y siempre que tengamos activaba la función de recogida de datos de Google Signals.
En el caso de que se aplique un umbral a los datos, nos aparecerá un icono de un triángulo junto al nombre del informe.
Hemos excedido el límite
Si superamos los 10 millones de eventos en los resultados de nuestra consulta de Explorar (Exploración), los datos devueltos serán muestreados. Del mismo modo, si excedemos las filas máximas de resultados, aparecerá other
en los resultados, ocultando parte de la información. Esto último no afecta a BigQuery, sólo a la interfaz web y a la API.
No estamos midiendo lo mismo
Aunque parezca nimio, muchas de las discrepancias vienen de la mano de pequeños desajustes. Para minimizar este impacto, debemos asegurarnos de que los siguientes puntos son iguales en ambas plataformas:
mismas dimensiones y métricas
misma propiedad de GA4
mismos filtros
mismo periodo de tiempo
GA4 ha incorporado varias dimensiones similares pero que no son iguales, por ejemplo first_user_source_medium, session_source_medium, o source_medium aportan información diferente, por ello debemos asegurarnos que siempre usamos lo mismo en ambos reportes.
Ciertas consultas a la API o a BigQuery en las que se crucen ámbitos de las dimensiones o se incluyan métricas únicas en diferentes períodos de tiempo pueden hacen que los datos devueltos no sean agregables.
Si esto ocurre, el cuadro de mando en Looker Studio, mostrará datos incorrectos, ya que las métricas únicas no se pueden sumar.
Para minimizar este problema, al utilizar la API (Looker Studio), se necesitaría una dimensión personalizada que contenga nuestro propio ID de usuario, de esa manera tendremos nuestra propia dimensión principal.
Y ojo con aplicar filtros, podrían distorsionar los resultados al contabilizar los datos de maneras diferentes.
Los usuarios se calculan de maneras diferentes
GA4 calcula las sesiones en función de los IDs de usuario, por lo que más que una métrica que refleja la realidad, se trata de una métrica calculada.
En la documentación oficial lo explican así: “Analytics calcula el número de sesiones que se producen en su sitio o aplicación estimando el número de IDs de sesión únicos.“
Esto podría llevar a reflejar una información diferente según la plataforma desde la que visualicemos los datos, en especial si existen usuarios duplicados.
Analizamos datos de ingresos diferentes a USD
Esto es una de las cosas que más me han sorprendido de GA4 y es que por defecto trabaja con USD
(dólares americanos) pero si queremos emplear otro tipo de moneda, los reportes que incluyan ingresos/costes serán convertidos en tiempo real al cambio que esté la moneda con la que queremos visualizarlos. Vamos, que pueden fluctuar enormemente en el tiempo. Esto, nuevamente, no afecta a los datos de BigQuery dado que ya fueron exportados.
El marco temporal es diferente
GA4 contabiliza una sesión en un periodo de tiempo sólo si ha habido eventos en dicho marco temporal. Esto es sustancialmente diferente a cómo lo hacía Universal, donde una sesión sólo tenía en cuenta el comienzo de la misma, pero no interacciones durante ese periodo.
Dependiendo de cómo sea la naturaleza de nuestro tráfico, esta métrica puede diferir sustancialmente. Si tenemos mucho tráfico antes de la medianoche (Analytics termina sesión a las 0:00 independientemente de cuándo haya comenzando), la diferencia será considerable. Además, si nuestros usuarios tienen tendencia a generar sesiones largas (más de 30 minutos), también aumentarán la diferencia, ya que un mayor número de sesiones tendrán eventos en ambos lados de cualquier período de tiempo dado.
A mayores, al comparar sesiones mensuales o anuales y sesiones que son la suma de recuentos diarios de sesiones, no coincidirán.
Si trabajamos con BigQuery y utilizamos la fecha del evento
start_session
, la sesión sólo se contará una vez, independientemente del período. Esto tiende a hacer que las sesiones en BigQuery sean menores que las sesiones reportadas y exploradas que se cuentan duplicadas desde el punto de vista de sesiones únicas.
A mayores, BigQuery trabaja con dos eventos que almacenan fecha:
event_date: fecha en la que se registró el evento
event_timestamp: fecha en la se se generó el evento por parte del cliente
Además del uso horario que hayamos configurado en nuestra plataforma de GA4, es importante que ambos eventos sean utilizados de manera adecuada.
También hay otra peculiaridad en GA4. Tenemos la opción de establecer durante cuánto tiempo queremos conservar los datos de usuarios y eventos. Esto no implica eliminar los datos de la propiedad, tan sólo afectará a los calculados (no a los agregados).
Si realizamos un análisis en un marco temporal fuera de ese periodo tendremos discrepancias dado que la conservación sólo afecta a web y API pero no a BigQuery.
En resumen, BigQuery siempre será el conjunto de datos más consistente y detallado para análisis cualificados. El resto de reportes pueden contener inconsistencias.