Fidelia Cascini
Una metodologia data-driven per scoprire le correlazioni tra campioni di cocaina
La creazione della piattaforma PRIDE per la lotta al traffico degli stupefacenti.
I sistemi di machine-learning sono da tempo utilizzati per vari scopi in ambito scientifico ma non sono mai stati applicati al tracciamento di stupefacenti. Questa ricerca ha permesso di sviluppare uno strumento capace di classificare e mettere in correlazione i profili chimici di un illimitato numero di sequestri di cocaina, i cui risultati diventano, mediante una piattaforma web, accessibili, aggiornabili e consultabili contemporaneamente da diverse postazioni di polizia e istituzioni autorizzate, localizzati in diversi punti d’Europa. Le risposte di correlazione tra sequestri di droga possono essere quindi condivise su scala internazionale permettendo di tracciare i campioni sequestrati, correlarli per identica provenienza, classificare e confrontare i profili delle sostanze per scoprire quanto sia probabile che condividano una stessa origine o un processo di preparazione comune.
La scoperta di somiglianze tra campioni di cocaina è un approccio innovativo e promettente per controllare il traffico di questa droga e agire per prevenirne il consumo. Una rapida profilazione chimica di un campione valutabile comparativamente rispetto a molti altri campioni sequestrati, e il tracciamento in tempo reale dei sequestri stessi, oltre ad offrire benefici di tipo investigativo hanno anche importanti risvolti sociali e di salute pubblica potendo servire a contrastare più efficacemente l’offerta e la diffusione di stupefacenti. Diversi parametri, sotto forma di dati cromatografici, possono essere utilizzati per realizzare la profilazione chimica del sequestro e per stabilire i collegamenti nella distribuzione di campioni trovati in luoghi diversi o che sono stati in possesso di individui diversi. Si tratta di profili di impurità ossia di marcatori chimici che portano all’identificazione e alla quantificazione di componenti maggiori e minori come alcaloidi, solventi, diluenti e adulteranti.
Questi parametri, ricercati su sequestri di droga superiori ai 5 kg, sono stati utilizzati per addestrare gli algoritmi di machine-learning da cui è costituito lo strumento. Una metodologia standardizzata data-driven è stata ottenuta utilizzando metriche di precisione e valutando la qualità delle previsioni eseguite dagli algoritmi rispetto al gold standard degli esperti. Il valore aggiunto di questa ricerca è nella combinazione di due diversi aspetti alla base di questa metodologia. Il primo relativo alla definizione del metodo per una accurata caratterizzazione dei sequestri di cocaina dal punto di vista della profilazione chimica, realizzato mediante la determinazione analitica della purezza del campione, l’identificazione quali-quantitativa delle impurità di origine e dei sottoprodotti, la determinazione dei solventi occlusi. Questi parametri, ottenuti con tecniche altamente specifiche e sensibili utilizzando metodi di laboratorio validati, offrono informazioni riproducibili contribuendo così alla definizione di una sorta di impronta digitale affidabile di ciascun campione di droga analizzato. Il secondo aspetto è la raccolta di tutti i profili analitici dei sequestri di cocaina e lo studio delle correlazioni tra di essi ottenibili mediante specifici algoritmi con elevate prestazioni. Su questi algoritmi si basa la creazione di una piattaforma basata sul web, che può essere aggiornata in tempo reale con nuovi profili di cocaina e che colleziona nel tempo informazioni sempre nuove, agendo come un analista intelligente che può supportare in modo efficiente chi esercita azioni di contrasto al traffico di stupefacenti. La piattaforma può raccogliere ed esaminare enormi quantità di dati relativi ai sequestri, partendo da quelli analitici e includendo anche quelli circostanziali relativi alle operazioni di polizia sul sequestro, per riconoscerne le correlazioni. Essa può inoltre accogliere e raccogliere dati da una gamma illimitata di fonti, nazionali e internazionali connesse tra loro in tempo reale, condividendo facilmente l’esito della comparazione dei campioni di droghe tra diverse postazioni interagenti tramite la piattaforma stessa. Nella ricerca è presentato un processo che, data l’analisi chimica dei campioni di cocaina, utilizza algoritmi di machine-learning per rilevare automaticamente nel database campioni che provengano dallo stesso ciclo produttivo. Questo processo è stato progettato assumendo che il database abbia campioni raccolti da tutti i paesi europei. Si noti che un approccio manuale, ad esempio guidato da esperti di dominio, può essere utile solo nel caso di analisi e confronti eseguiti su un piccolo set di campioni. Un algoritmo automatizzato può invece trovare correlazioni molto difficili, o addirittura impossibili, da trovare manualmente. Nello studio abbiamo testato sperimentalmente i nostri algoritmi rispetto a una serie di dati del mondo reale, verificando che fossero in grado di fornire previsioni affidabili. Per i nostri scopi sperimentali, ci siamo basati su una serie di 148 campioni provenienti da 40 diversi sequestri reali eseguiti dalle forze dell’ordine in Italia dal 2014 al 2018.