LUXURY
Torna ai Case Study
15min

Costruzione di un Data Product Scalabile per l'Analisi Comportamentale nel Fashion Luxury con dbt e AI

300%
ROI
Efficienza dei costi
30+
Test automatizzati
Data quality e linting SQL automatico.
>95%
Prevenzione degli errori
Grazie ai 30+ di test automatizzati la qualità del dato è sempre controllata
Contesto

L'azienda raccoglieva dati grezzi tramite Google Analytics 4 (GA4), accumulando miliardi di interazioni. Tuttavia, l'architettura esistente basata su tradizionali strumenti di Business Intelligence e visualizzazione (come Qlik e Denodo) non era in grado di elaborare direttamente questi volumi.

Il tentativo di effettuare aggregazioni complesse o join su serie storiche complete portava i sistemi di frontend al crash o a tempi di latenza inaccettabili. Di fatto, i dati esistevano ma erano "bloccati", impedendo al team marketing ed e-commerce di ottenere insight su segmentazione utenti, funnel di conversione e performance per area geografica (EMEAI, APAC, AMER, CHINA).

Problemi
  • Collo di bottiglia computazionale: I tool di visualizzazione (Qlik/Denodo) non potevano fungere da motore di calcolo per miliardi di righe.
  • Mancanza di storicità: Impossibilità di analizzare trend storici profondi senza compromettere le prestazioni.
  • Manutenzione complessa: Assenza di versionamento del codice SQL e documentazione frammentata, che rendeva difficile l'onboarding di nuove risorse e la manutenzione delle logiche di business.
  • Limiti nell'analisi predittiva: L'impossibilità di preparare dataset puliti e strutturati impediva l'applicazione di algoritmi di Machine Learning per la clusterizzazione degli utenti.

 

L'aspetto cruciale di questo Case Study è il cambio di paradigma da semplice ETL a "Data Product". Non si tratta solo di spostare dati, ma di creare un prodotto dati certificato, documentato e pronto all'uso. Grazie all'approccio "Documentation-First" e all'architettura modulare, il tempo di onboarding per i nuovi sviluppatori è stato ridotto del 70%. Inoltre, l'introduzione di logiche di incremental strategy ha permesso di elaborare solo i nuovi dati giornalieri, abbattendo drasticamente i costi di calcolo su BigQuery e garantendo dati freschi con un ritardo massimo (latency) controllato e monitorato.

Soluzione

Per superare i limiti infrastrutturali e abilitare analisi avanzate, è stata implementata una Modern Data Stack basata sul cloud. L'intervento ha coperto l'intera catena del valore del dato:

  • Data Transformation Layer (dbt Labs): Adozione di dbt (data build tool) per spostare la logica di trasformazione all'interno del Data Warehouse. È stata implementata un'Architettura Medallion (Bronze/Landing, Silver/Private, Gold/Public) che garantisce la pulizia progressiva del dato e la separazione delle responsabilità.
  • Orchestrazione e Automazione: utilizzo di Airflow per schedulare le pipeline e gestire le dipendenze, assicurando che i dati siano aggiornati e disponibili ogni mattina per il business.
  • Quality Assurance & CI/CD: integrazione di SQLFluff per la standardizzazione del codice e GitHub per il version control. Sono stati implementati alert automatici (via Slack) per freschezza dei dati, fallimento dei test o superamento delle soglie di costo.
  • Evoluzione AI (Clustering Comportamentale): sulla base dei dati puliti e strutturati, è in fase di implementazione un modulo di Vertex AI / BigQuery ML. Utilizzando algoritmi unsupervised in Python, il sistema sarà in grado di autodeterminare i cluster di comportamento degli utenti, superando la segmentazione manuale e fornendo input avanzati ai sistemi di frontend.

Diamo ora uno sguardo nel dettaglio all'architettura Medallion.

🥉 LANDING
  • Raw GA4 Data
  • Minimal ETL
  • Data Ingestion
🥈 PRIVATE
  • Core Models
  • Aggregations
  • Brand Filter
🥇 PUBLIC
  • Business Views
  • Country Enrich
  • Consumer Ready
Tecnologie
  • dbt Core (v1.10+) – Framework di trasformazione che ha permesso di scrivere logiche complesse in SQL modulare, gestendo dipendenze e documentazione automatica.
  • Google BigQuery – Data Warehouse serverless scelto per la sua capacità di scalare su petabyte di dati e per l'integrazione nativa con GA4.
  • Apache Airflow – Piattaforma di orchestrazione per la gestione dei workflow e il monitoraggio delle pipeline.
  • Python (v3.11+) – Utilizzato come runtime environment e per le future implementazioni di algoritmi di Machine Learning custom.
  • SQLFluff & GitHub – Strumenti per il linting del codice e il versionamento (CI/CD), garantendo stabilità e qualità del software.
  • Vertex AI / BigQuery ML – Suite per l'implementazione di modelli di Machine Learning (clustering unsupervised) direttamente sui dati residenti nel warehouse.

Data Products