Il grande inganno dei dati

La colonna sonora è l’opera omnia dei BOGA.

In questo articolo si parla di dati e di user experience. Ma prima di tutto è necessario fare alcune premesse.

La progettazione della User Experience, in ultima analisi, serve a incrementare il successo del business del cliente in termini di fatturato, il resto sono favole che ci raccontiamo per crederci eticamente superiori a un marketing manager qualsiasi. Dovremmo tutti scendere un po’ dal pero del design.
Se spendi un certo numero di milioni di euro all’anno per l’advertising tradizionale, non stai facendo marketing digitale, anche se il tuo prodotto esiste solo online e sei ossessionato dall’analisi predittiva. Mi è capitato di parlare con persone genuinamente convinte che l’analisi dei dati quantitativi sia come uno di quegli elisir miracolosi che guarivano tutti i mali, popolari un paio di secoli fa. Quelli più ostinati si vantano delle loro strategie data-driven, salvo poi generare lead in gran parte attraverso martellanti e costosissime campagne TV. Non c’è nulla di male nel fare comunicazione nei canali tradizionali, intendiamoci, è l’unica strada percorribile quando il prodotto ha un basso coefficiente di innovazione e la competizione è alta. Tutto bene quindi, ma almeno non tiriamocela da growth hacker.
Se hai solo obiettivi a breve termine (l’ansia del quarter), se non hai idea di cosa significhi il termine purpose-driven marketing o se il tuo modello di marketing è inside-out (la sagra dello «sconto solo per oggi solo per te» insomma) allora questo articolo non fa per te. Oppure, al contrario, fa proprio per te.

Il primo problema dell’approccio del culto dei dati — che chiamerò, per scherzarci un po’ su, data-worship model — è che il dato in sé non è nulla. Citando Zeleny il dato è know nothing. I dati sono simboli, fatti distinti e oggettivi, ma che non rappresentano di per sé conoscenza. Solo una volta elaborati, possono, a volte, diventare utili e fare la differenza — quello che, sempre Zeleny, chiama know what. Ma per arrivare alla conoscenza, il know how, è necessario un passo ulteriore: mettere delle menti al lavoro per applicare i dati e l’informazione a un contesto.

Come si arriva allo step successivo, cioè la saggezza, il know why? Ackoff sostiene che la saggezza è comprensione valutata, mentre Davenport e Prusak parlano di concetti di ordine superiore che confluiscono nella conoscenza a scopo pratico. Sorvoliamo sulla saggezza, concentriamoci sulla conoscenza.

Una raccolta di dati non è conoscenza. In particolare, se si tratta di dati sul comportamento di esseri umani.

Il secondo problema del data-worship model è la possibile confusione tra causalità e sincronicità.

Due eventi sono sincronistici (nell’accezione originale di Jung) quando tra loro vi è un nesso di significato acausale. Quindi, un essere umano può attribuire un significato a due eventi e agire di conseguenza senza che, tra essi, ci sia un rapporto causa/effetto deterministico. A tutti è capitato qualcosa di simile al pensare a una persona importante nella propria vita e, incredibilmente, ricevere un attimo dopo una telefonata proprio da questa persona. C’è un nesso causale deterministico, ovvero: il mio pensiero innesca inevitabilmente la chiamata? No. C’è un nesso di significato importante, ma solo per me? Sì.

Perché considero questo un problema del data-worship model? Perché l’unica entità in grado di attribuire nessi di significato agli eventi è il nostro sistema cognitivo. Possiamo raccogliere tutti i dati che vogliamo sugli utenti ma le motivazioni del loro comportamento sono sostanzialmente inconoscibili e sicuramente più complesse di una sequenza di dati. Per esempio, se volessi simulare la sincronicità e usarla a mio vantaggio, dovrei simulare anche la storia personale dell’utente, le emozioni, l’influsso della sua rete sociale, il sistema percettivo, cognitivo, in sintesi la sua “umanità”, cosa (per ora) impossibile.

Chi crede di poter determinare le intenzioni di acquisto di un cliente esclusivamente sulla base delle tracce digitali che lascia, rischia di incorrere almeno in due errori: il primo è l’ipersemplificazione del comportamento, il secondo, e ancora più importante, è la credenza ingenua che, quando una persona prende decisioni economiche, sia razionale.

Io posso decidere di acquistare un prodotto grazie a un evento sincronistico, che è un’esperienza irrazionale e personale, e un’altra persona — o un algoritmo — non potrà prevedere questo comportamento esclusivamente sulla base dei dati quantitativi, necessariamente parziali, che ha a disposizione su di me.

Il terzo problema, in un certo senso affine al precedente, è la maledetta confusione tra correlazione e causalità. In quest’epoca di esplosione della disponibilità dei dati e degli strumenti di analisi, l’entusiasmo del data-worship scientist (mi diverte inventare job role bizzarri) può portare a errori grossolani di valutazione.

Rinfreschiamoci la memoria: due variabili sono correlate se al variare dell’una varia anche l’altra. Una variabile può essere la causa di un’altra (che la segue), a meno che non ve ne sia una terza che le influenza. Quindi per la causalità la correlazione è necessaria ma non sufficiente.

Se ci si impegna un po’ è possibile far fare ai numeri qualsiasi cosa. Un data-worship scientist, se dimentica la differenza tra correlazione e causalità, può considerare rilevante per i suoi scopi anche la correlazione che ha appena scoperto tra la variabile numero di prodotti acquistati in un dato periodo dagli utenti nati a novembre e la variabile posizione della Luna nell’oroscopo dello Scorpione. Bullshit, direbbero gli americani.

Ok, già vedo il data scientist in voi insorgere: «Ma io Io so come funziona la statistica! E uso tutti gli strumenti matematici per evitare gli errori». Ne sono certo. Ma…

Il punto non è solo la scelta delle variabili, è che quando il tema in gioco è il comportamento umano, in particolare la misurazione degli atteggiamenti e delle intenzioni, non è possibile semplificare troppo, perché le correlazioni spurie sono potenzialmente infinite.

Inoltre, nell’analisi di questo tipo di dati siamo soggetti a tutti i bias cognitivi possibili (e i nostri bias li trasferiamo negli algoritmi che progettiamo). Per fare solo un esempio consideriamone uno: il confirmation bias. Le persone — e, quindi, anche gli scienziati — cercano spesso solo dati compatibili con le credenze e i pregiudizi che hanno.

Per cui, amico data scientist, non dirmi che la tua prospettiva è vincente perché è variato positivamente il KPI opinabile sul quale tu stesso hai scelto di misurarti. Troppo facile.

Quindi?

La mia opinione è che la ricerca quantitativa da sola non sia sufficiente e, francamente, non vedo soluzioni semplici ai problemi che ho citato. Almeno quando si parla di analisi predittive sul comportamento umano.

Secondo me per arrivare a un compromesso accettabile è necessario un salto di paradigma che consenta di integrare in una maniera sostenibile la ricerca qualitativa (gli small data) nell’analisi predittiva. Mi riferisco precisamente alle attività di user research che sono prerogativa delle professionalità di User Experience Design, in particolare quelle che derivano da un approccio etnografico.¹

Cioè mettere nuovamente (o finalmente) l’uomo e la complessità al centro.

La sfida è trovare un linguaggio comune tra ricerca quantitativa e qualitativa che consenta di costruire algoritmi in grado di integrare variabili oggettive e soggettive. Io, nel mio piccolo, ~~ci sto provando~~ (ci stavo provando, poi la pandemia ha fermato quel progetto).

Questo articolo racconta un tentativo di andare verso la direzione che indico: Just Add Water: Lessons Learned from Mixing Data Science and Design Research Methods to Improve Customer Service.