Il concetto di Industria 4.0 con il suo inarrestabile processo di digitalizzazione e automazione ha cambiato completamente la natura delle imprese industriali. Insieme a tutti i vantaggi legati alla connettività, ha introdotto nuove sfide, tra cui l’estensione della cosiddetta “superficie di attacco”. Alle minacce fisiche – comuni già da prima nel settore industriale – si sono aggiunte quelle cyber e cyber-fisiche.
Tenendo conto delle principali priorità del mondo OT – tra cui la produttività aziendale, l’affidabilità dei processi e, soprattutto, la salvaguardia delle persone – la sicurezza è stata uno dei punti chiave dell’agenda industriale per circa un decennio. Per individuare tempestivamente le attività sospette e riconoscere gli attacchi informatici, le organizzazioni utilizzano sistemi SIEM (Security Information and Event Management) che raccolgono log di sicurezza dai loro sistemi e mettono in correlazione pattern anomali.
Nonostante questo, i criminali non si arrendono e continuano a trovare nuove strategie per compromettere le industrie. Sfruttando i sistemi di sicurezza fisica e informatica, che sono indipendenti gli uni dagli altri, uniscono tecniche cyber e fisiche per condurre gli attacchi.
Ma quali sono le conseguenze? Un attacco cyber o fisico riuscito ai sistemi di controllo o alle reti industriali può interrompere operazioni o addirittura negare servizi critici per la società: si consideri, per esempio, l’attacco a Colonial Pipeline che ha visto lo spegnimento di novemila chilometri di oleodotto, causando una grave crisi del carburante in tutta la costa orientale degli Stati Uniti ed un aumento esorbitante dei prezzi.
I rischi sono significativi e concreti. Secondo Gartner, entro il 2025, il 30% delle infrastrutture critiche subirà una violazione della sicurezza che comporterà l’arresto di un sistema cyber-fisico operativo o mission-critical.
Per fornire alle imprese industriali italiane una soluzione immediata, Sababa Security ha unito le proprie forze a quelle del Gruppo Iren e dell’Università di Genova, e – con il supporto e il finanziamento del Centro di Competenza Start 4.0 – ha sviluppato un algoritmo di Machine Learning (ML) in grado di raccogliere, elaborare e correlare i log dei sistemi di sicurezza cyber, fisici e cyber-fisici. Il progetto è durato un anno ed oggi abbiamo chiesto ai project leader di condividere con noi alcune considerazioni e le lezioni apprese durante il percorso.
Un progetto di sicurezza informatica di questo tipo non poteva prescindere da dati realistici, una ricerca scientifica, una guida commerciale e dei fondi. Con un importante finanziamento, Start 4.0 ha deciso di sostenere l’iniziativa: mentre Gruppo Iren è stata la fonte di dati grezzi ed il modello per lo sviluppo della soluzione, l’Università di Genova si è occupata di ordinare e classificare tali dati, nonché di istruire l’IA e testare l’algoritmo; allo stesso tempo, Sababa Security supervisionava e guidava l’attività.
Essendo la cybersecurity un tema di grande attualità anche nel mondo industriale, tali progetti sono diventati comuni negli ultimi 7-8 anni. Tuttavia, questo progetto è diventato unico nel suo genere, essendo stato avviato nel bel mezzo della pandemia, a giugno 2020. Proprio per questo motivo, a differenza di tanti altri, il progetto ha lasciato più spazio per la riflessione per via della mancanza di contatti interpersonali e dello scambio di opinioni con i colleghi davanti ad una tazza di caffè. I 12 mesi dedicati alla sua realizzazione sono stati suddivisi in 3 fasi: classificazione dei dati, progettazione dell’algoritmo e test.
Fase 1 – Ottenere dati reali da un vero impianto. La prima fase, che consisteva nella raccolta dei dati all’interno dell’ambiente di Gruppo Iren, è stata la più impegnativa.
“Abbiamo raccolto informazioni da diverse fonti, che di solito non vengono aggregate, ma una volta che lo sono, garantiscono maggiore visibilità, sicurezza e controllo sulle operazioni IT e OT”, ha commentato Mario Marchese, Professore e Responsabile del Satellite Communications and Heterogeneous Networking Laboratory (SCNL) all’Università di Genova.
Avendo a che fare con una quantità significativa ed eterogenea di dati grezzi, il primo passo è stata la cosiddetta feature extraction, che consiste nel selezionare quei dati destinati ad essere informativi, utili ed adatti al Machine Learning, in base al compito che dovrebbe svolgere, che, in questo caso, era il rilevamento di anomalie e comportamenti insoliti.
“Avendo a che fare con così tante informazioni diverse, la parte più complicata è stata la loro integrazione, cioè definire delle dinamiche che un algoritmo di Intelligenza Artificiale fosse in grado di rilevare ed elaborare”, spiega Fabio Patrone, ricercatore e collaboratore del Professor Marchese, “È stato estremamente difficile capire quali dati fossero effettivamente utili e quali comportamenti richiedessero un’attenzione particolare. Per esempio, consideriamo una serie di semplici eventi: Sono in piedi alla finestra, una macchina sta passando ed un uccello vola tra me e la macchina. Molto probabilmente quest’ultimo evento è irrilevante. Ma cosa succede se l’uccello vola lì ogni giorno alla stessa ora? Potrebbe essere sospetto e quindi deve essere considerato”.
Questa prima fase ha visto il coinvolgimento di moltissimi dipendenti del Gruppo Iren, dal Plant Manager all’ICT Security Specialist.
Fase 2 – Selezione dell’algoritmo e realizzazione del prototipo. La fase successiva è stata la selezione del miglior design e dell’algoritmo per realizzare il prototipo della soluzione. Questo step ha visto una forte sinergia tra il Development Team di Sababa ed i ricercatori del laboratorio del Professor Marchese.
“Sababa, in qualità di project leader, ha coordinato gli attori coinvolti, unendo l’expertise tecnico accademico alle conoscenze maturate nel settore industriale. In ogni fase del progetto, e soprattutto in questa, abbiamo definito e monitorato i requisiti tecnologici e organizzativi in gioco, coinvolgendo vari professionisti per gestire adeguatamente gli aspetti più critici”, commenta Matteo Oliveri, Cybersecurity Advisor di Sababa Security, “Nella fase di implementazione, abbiamo installato, gestito e reso disponibile l’infrastruttura tecnologica necessaria per definire, sviluppare e testare la soluzione, contribuendo all’integrazione delle componenti software utilizzate”.
Fase 3 – Test. La terza ed ultima parte del progetto è stata la fase di test – una delle più apprezzate nel laboratorio del Professor Marchese, ma anche una delle più complesse e lunghe, poiché il Machine Learning richiede una configurazione granulare per far sì che l’algoritmo funzioni correttamente in tutti gli ambienti rilevanti per la sicurezza e che il rilevamento delle anomalie sia eseguito in modo efficiente.
“È una soddisfazione vedere come una semplice idea scritta su un pezzo di carta possa diventare realtà, anche se il percorso verso l’obiettivo finale non segue sempre le tue previsioni. C’è sempre qualcosa che può andare storto o che richiede più tempo del previsto, ma questo è il bello dei progetti ambiziosi”, commenta Fabio Patrone.
In progetti come questo, la fase di test non può e non deve mai mancare, soprattutto quando i ricercatori puntano ad ottenere risultati molto pratici, essendo finanziati dal governo e lavorando per una delle più grandi imprese industriali del paese.
Pur non essendo il primo progetto in questo settore, l’obiettivo di creare un algoritmo per l’IA in grado di individuare dati eterogenei rilevanti e correlarli tra loro era piuttosto ambizioso, ma portato a termine con grandi risultati, soprattutto considerando il periodo storico in cui è nato. La soluzione, con il suo design modulare, è in grado di “ingerire” e ripulire una grande varietà di eventi provenienti da sistemi di sicurezza cyber (Firewall, log VPN), cyber-fisici (SCADA, eventi legati all’IoT) e fisici (persone, controllo accessi dei veicoli), consentendo così di avere una visione olistica e multidimensionale dell’infrastruttura in termini di sicurezza e resilienza.
Un ultimo aspetto da non sottovalutare è la scalabilità della soluzione. Infatti, nonostante i dati grezzi di partenza e le fonti di provenienza diversi, il sistema SIEM può essere completamente adattato e facilmente implementato in ambienti industriali differenti.