Data-driven bullshit

La sfida è chiara: trovare un linguaggio comune tra ricerca quantitativa e qualitativa che consenta di costruire algoritmi in grado di integrare variabili oggettive e soggettive. Io, nel mio piccolo, ci sto provando.

In questo articolo si parla di dati e di user experience. Ma prima di tutto è necessario fare alcune premesse.

Le bellissime esperienze che progetti come UX Designer, in ultima analisi, servono a incrementare il successo del business del cliente in termini di fatturazione, il resto sono favole che ti racconti per crederti eticamente superiore a un marketing manager qualsiasi. Dobbiamo tutti scendere un po’ dal pero del design.

Se spendi dai due ai quattro milioni di euro all’anno per l’advertising tradizionale, non stai facendo marketing digitale, anche se il tuo prodotto esiste solo online e sei ossessionato dall’analytics.

A questo proposito, mi è capitato di parlare con persone religiosamente convinte che l’analisi dei dati quantitativi sugli utenti sia il loro uovo di Colombo. Quelli più ostinati si vantano delle loro strategie data-driven, salvo poi generare lead in gran parte attraverso martellanti campagne TV. Non c’è nulla di male nel fare comunicazione nei canali tradizionali, intendiamoci, è l’unica strada percorribile quando il proprio prodotto ha un basso coefficiente di innovazione e la competizione è alta. Tutto bene quindi, ma almeno non tiriamocela da data guru.

Terza premessa: se hai solo obiettivi finanziari a breve termine (lo startuppismo estremo per capirci), se non hai idea di cosa significhi il termine purpose-driven marketing e se il tuo modello di marketing è inside-out (focus sul prodotto e non sull’utente) allora questo articolo non fa per te. Oppure, al contrario, fa proprio per te.

Il primo evidente problema dell’approccio del culto dei dati — che chiamerò, per scherzarci un po’ su, data-worship model — è che il dato in sé non è nulla. Citando Zeleny il dato è know nothing. I dati sono simboli, fatti distinti e oggettivi, ma che non rappresentano di per sé conoscenza. Solo una volta elaborati, possono, a volte, diventare utili e fare la differenza — quello che, sempre Zeleny, chiama know what. Ma per arrivare alla conoscenza, il know how, è necessario un passo ulteriore: mettere delle menti al lavoro per applicare i dati e l’informazione a un contesto.

Come si arriva allo step successivo, cioè la saggezza, il know why? Ackoff sostiene che la saggezza sia comprensione valutata, mentre Davenport e Prusak parlano di concetti di ordine superiore che confluiscono nella conoscenza a scopo pratico. Oggi sorvoliamo sulla saggezza, concentriamoci sulla conoscenza.

Una raccolta di dati non è conoscenza. In particolare se si tratta di dati sul comportamento degli esseri umani.

Il secondo problema del data-worship model è la confusione tra causalità e sincronicità.

Due eventi sono sincronistici (nell’accezione originale di Jung) quando tra loro vi è un nesso di significato acausale. Quindi un essere umano può attribuire un significato a due eventi e agire di conseguenza senza che, tra essi, ci sia un rapporto causa/effetto deterministico. A tutti è capitato, per esempio, di pensare a una persona importante nella propria vita e, incredibilmente, ricevere in contemporanea una telefonata proprio da questa persona. C’è un nesso causale deterministico (il mio pensiero innesca inevitabilmente la chiamata)? No. C’è un nesso di significato importante, ma solo per me? Sì.

Perché considero questo un problema? Perché l’unica entità in grado di attribuire significato agli eventi è il nostro sistema cognitivo. Possiamo raccogliere tutti i dati che vogliamo sugli utenti ma le motivazioni del loro comportamento sono pressoché inconoscibili e sicuramente più complesse di una semplice sequenza di eventi correlati. Per esempio, per simulare la sincronicità e usarla a mio vantaggio dovrei simulare anche l’umanità di ogni utente (la sua storia personale, le sue emozioni, la sua rete sociale, il suo sistema percettivo, cognitivo ecc.) cosa che, oggi, è impossibile (ma anche se fosse possibile, sarebbe sostenibile e sensato? Ne parlo in un articolo sulla UX e l’intelligenza artificiale.).

Chi crede di poter determinare le intenzioni di acquisto di un cliente esclusivamente sulla base delle tracce digitali che lascia, rischia di incorrere almeno in due errori: il primo è l’iper-semplificazione del comportamento umano, il secondo, e ancora più importante, è la credenza ingenua che, quando una persona effettua decisioni economiche, sia razionale.

Io posso decidere di acquistare un prodotto grazie a un evento sincronistico, che è un’esperienza irrazionale e personale, e un’altra persona — o un algoritmo — non potrà prevedere questo comportamento esclusivamente sulla base dei dati quantitativi che ha a disposizione su di me.

Il terzo problema, in un certo senso affine al precedente, è la maledetta confusione tra correlazione e causalità. In quest’epoca di esplosione della disponibilità dei dati e degli strumenti di analisi, l’entusiasmo del data-worship scientist può portare a errori grossolani di valutazione.

Rinfreschiamoci la memoria: due variabili sono correlate se al variare dell’una varia anche l’altra. Una variabile può essere la causa di un’altra (che la segue), a meno che non ve ne sia una terza che le influenza. Quindi per la causalità la correlazione è necessaria ma non sufficiente.

Se ci si impegna un po’ è possibile far fare ai numeri qualsiasi cosa (vedi, per esempio, il buffo caso della numerologia). Un data-worship scientist, se dimentica la differenza tra correlazione e causalità, può considerare rilevante per i suoi scopi anche la correlazione che ha appena trovato tra la variabile numero di assicurazioni acquistate in un dato periodo dagli utenti nati a novembre e la variabile posizione della Luna nell’oroscopo dello Scorpione.

Ok, già vedo il data scientist in voi insorgere e dire: “Io so benissimo come funziona la statistica! E uso tutti gli strumenti matematici per evitare errori”. Ne sono certo. Ma…

Il punto non è solo la scelta delle variabili, è che quando il tema in gioco è il comportamento umano, in particolare la misurazione degli atteggiamenti e delle intenzioni, non è possibile semplificare troppo, perché le correlazioni spurie sono potenzialmente infinite.

Inoltre nell’analisi di questo tipo di dati siamo soggetti a tutti i bias cognitivi possibili (e i nostri bias li trasferiamo negli algoritmi che progettiamo). Per fare solo un esempio consideriamone uno: il confirmation bias. Le persone — e, quindi, anche gli scienziati — cercano spesso solo dati compatibili con le credenze e i pregiudizi che hanno.

Per cui, amico data scientist, non dirmi che la tua prospettiva è vincente perché è variato positivamente il KPI sul quale tu stesso hai scelto di misurarti. Troppo facile.

Quindi?

La mia opinione è che la ricerca quantitativa da sola non sia sufficiente e, francamente, non vedo soluzioni semplici ai problemi complessi che ho citato. Almeno quando si parla di analisi predittive sul comportamento umano.

Secondo me per arrivare a un compromesso accettabile è necessario un salto di paradigma che consenta di integrare in una maniera sostenibile la ricerca qualitativa nell’analisi predittiva. Mi riferisco precisamente alle attività di user research che sono prerogativa delle professionalità di User Experience Design, in particolare quelle che derivano da un approccio etnografico.

Mettere nuovamente (o finalmente) l’uomo e la complessità al centro.

La sfida è chiara: trovare un linguaggio comune tra ricerca quantitativa e qualitativa che consenta di costruire algoritmi in grado di integrare variabili oggettive e soggettive. Io, nel mio piccolo, ci sto provando.

Lascia un commento