Modern Data Stack per Analisi avanzate nel Luxury

Contesto

L'azienda raccoglieva dati grezzi tramite Google Analytics 4 (GA4), accumulando miliardi di interazioni. Tuttavia, l'architettura esistente basata su tradizionali strumenti di Business Intelligence e visualizzazione (come Qlik e Denodo) non era in grado di elaborare direttamente questi volumi.

Il tentativo di effettuare aggregazioni complesse o join su serie storiche complete portava i sistemi di frontend al crash o a tempi di latenza inaccettabili. Di fatto, i dati esistevano ma erano "bloccati", impedendo al team marketing ed e-commerce di ottenere insight su segmentazione utenti, funnel di conversione e performance per area geografica (EMEAI, APAC, AMER, CHINA).

Problemi

Collo di bottiglia computazionale: I tool di visualizzazione (Qlik/Denodo) non potevano fungere da motore di calcolo per miliardi di righe.
Mancanza di storicità: Impossibilità di analizzare trend storici profondi senza compromettere le prestazioni.
Manutenzione complessa: Assenza di versionamento del codice SQL e documentazione frammentata, che rendeva difficile l'onboarding di nuove risorse e la manutenzione delle logiche di business.
Limiti nell'analisi predittiva: L'impossibilità di preparare dataset puliti e strutturati impediva l'applicazione di algoritmi di Machine Learning per la clusterizzazione degli utenti.

L'aspetto cruciale di questo Case Study è il cambio di paradigma da semplice ETL a "Data Product". Non si tratta solo di spostare dati, ma di creare un prodotto dati certificato, documentato e pronto all'uso. Grazie all'approccio "Documentation-First" e all'architettura modulare, il tempo di onboarding per i nuovi sviluppatori è stato ridotto del 70%. Inoltre, l'introduzione di logiche di incremental strategy ha permesso di elaborare solo i nuovi dati giornalieri, abbattendo drasticamente i costi di calcolo su BigQuery e garantendo dati freschi con un ritardo massimo (latency) controllato e monitorato.

Soluzione

Per superare i limiti infrastrutturali e abilitare analisi avanzate, è stata implementata una Modern Data Stack basata sul cloud. L'intervento ha coperto l'intera catena del valore del dato:

Data Transformation Layer (dbt Labs): Adozione di dbt (data build tool) per spostare la logica di trasformazione all'interno del Data Warehouse. È stata implementata un'Architettura Medallion (Bronze/Landing, Silver/Private, Gold/Public) che garantisce la pulizia progressiva del dato e la separazione delle responsabilità.
Orchestrazione e Automazione: utilizzo di Airflow per schedulare le pipeline e gestire le dipendenze, assicurando che i dati siano aggiornati e disponibili ogni mattina per il business.
Quality Assurance & CI/CD: integrazione di SQLFluff per la standardizzazione del codice e GitHub per il version control. Sono stati implementati alert automatici (via Slack) per freschezza dei dati, fallimento dei test o superamento delle soglie di costo.
Evoluzione AI (Clustering Comportamentale): sulla base dei dati puliti e strutturati, è in fase di implementazione un modulo di Vertex AI / BigQuery ML. Utilizzando algoritmi unsupervised in Python, il sistema sarà in grado di autodeterminare i cluster di comportamento degli utenti, superando la segmentazione manuale e fornendo input avanzati ai sistemi di frontend.

Diamo ora uno sguardo nel dettaglio all'architettura Medallion.

🥉 LANDING

Raw GA4 Data
Minimal ETL
Data Ingestion

➜

🥈 PRIVATE

Core Models
Aggregations
Brand Filter

➜

🥇 PUBLIC

Business Views
Country Enrich
Consumer Ready

Tecnologie

dbt Core (v1.10+) – Framework di trasformazione che ha permesso di scrivere logiche complesse in SQL modulare, gestendo dipendenze e documentazione automatica.
Google BigQuery – Data Warehouse serverless scelto per la sua capacità di scalare su petabyte di dati e per l'integrazione nativa con GA4.
Apache Airflow – Piattaforma di orchestrazione per la gestione dei workflow e il monitoraggio delle pipeline.
Python (v3.11+) – Utilizzato come runtime environment e per le future implementazioni di algoritmi di Machine Learning custom.
SQLFluff & GitHub – Strumenti per il linting del codice e il versionamento (CI/CD), garantendo stabilità e qualità del software.
Vertex AI / BigQuery ML – Suite per l'implementazione di modelli di Machine Learning (clustering unsupervised) direttamente sui dati residenti nel warehouse.

Data Products

Costruzione di un Data Product Scalabile per l'Analisi Comportamentale nel Fashion Luxury con dbt e AI