Test drive sintetico

Come una casa automobilistica ha utilizzato i dati sintetici dei conducenti per addestrare modelli di rischio, senza raccogliere un solo viaggio nel mondo reale

Scorri

Sfida

Dati senza driver

Una casa automobilistica globale stava sviluppando un modello di rischio di incidenti di nuova generazione per supportare l’ingegneria della sicurezza, la pianificazione delle garanzie e potenziali partnership assicurative. I dati sul comportamento dei conducenti nel mondo reale erano essenziali, ma raccoglierli dai veicoli o dai conducenti ha innescato privacy, consenso e ostacoli normativi. L'azienda aveva bisogno di un modo per addestrare e convalidare modelli di rischio su larga scala senza ritardare i cicli dei prodotti o esporre i dati dei clienti.

La casa automobilistica aveva bisogno di addestrare un modello di rischio di incidenti di nuova generazione. Ma la raccolta di dati comportamentali da parte di conducenti reali ha sollevato problemi di privacy e ha richiesto mesi di verifica della conformità. I partner assicurativi si sono mostrati cauti. I clienti erano diffidenti. E i team legali interni hanno messo in pausa.

Non abbastanza, non abbastanza veloce

I dati di guida nel mondo reale erano scarsi. Le registrazioni telematiche coprivano solo il 4% dei veicoli. Casi limite come frenate brusche, guida notturna o nuclei familiari con più conducenti erano sottorappresentati. E anche quando i dati esistevano, la pulizia, l’anonimizzazione e la protezione richiedevano mesi.

E se potessi simularlo?

E se potessi generare dati realistici sul comportamento dei conducenti su larga scala, senza informazioni personali, sensori e ritardi di conformità? E se potessi addestrare modelli di rischio su migliaia di profili di conducenti diversi, senza mai tracciare una persona reale?

Approccio

Quindi abbiamo generato i driver

Abbiamo creato un set di dati sintetici sui conducenti: 500.000 profili unici e simulati con cronologie complete di viaggi, tipi di veicoli, livelli di rischio ed etichette geografiche. Il comportamento di guida è stato generato utilizzando un motore basato su regole ottimizzato per imitare la telemetria del mondo reale, convalidato rispetto ai benchmark telematici esistenti della casa automobilistica.

Soluzione

Abbiamo addestrato il modello

Utilizzando questo set di dati sintetici, abbiamo addestrato un modello ML supervisionato per prevedere la probabilità del rischio di incidenti su 17 caratteristiche basate sul comportamento. Il modello ha raggiunto il 93% della sua precisione di riferimento nel mondo reale, senza mai utilizzare un vero driver. I casi limite simulati ci hanno permesso di sottoporre il modello a stress test in scenari rari e ad alto rischio che sarebbero difficili da raccogliere su larga scala.

Metodologia

Abbiamo utilizzato un approccio in tre fasi: (1) progettare un generatore di dati sintetici calibrato sui parametri di riferimento telematici esistenti della casa automobilistica (velocità, frenata, durata del viaggio, ora del giorno, geografia); (2) generare oltre 500.000 profili di conducenti con cronologie di viaggio complete e caratteristiche rilevanti per il rischio; (3) addestrare e convalidare il modello di rischio su dati sintetici, quindi confrontare l'accuratezza e la stabilità con i modelli addestrati su dati reali, ove disponibili. La convalida ha garantito che la distribuzione sintetica corrispondesse alle principali statistiche del mondo reale.

Origini dei dati

Profili conducente sintetici (500.000+) con cronologia dei viaggi, tipo di veicolo ed etichette geografiche. Benchmark telematici reali (interni, anonimizzati) utilizzati solo per la calibrazione e la convalida: nessun dato individuale del conducente nel set di formazione. Etichette di rischio e 17 caratteristiche basate sul comportamento (ad esempio frequenza di frenate brusche, quota di guida notturna, chilometraggio) derivate dal motore sintetico. Nessun PII; nessun consenso richiesto; nessun ritardo nell'adempimento.

Lo abbiamo integrato nella ricerca e sviluppo

Il modello di rischio viene ora utilizzato dai team di ingegneria della sicurezza e di scienza dei dati per testare i sistemi dei veicoli, formulare proiezioni di garanzia e supportare esperimenti sui prezzi delle assicurazioni, senza bisogno di dati sui conducenti in tempo reale o aspettando cicli di raccolta dati.

"In passato aspettavamo sei mesi per avere dati di guida sufficienti. Ora possiamo simulare ciò di cui abbiamo bisogno, dall'oggi al domani."

— Responsabile dei dati scientifici, Sicurezza dei veicoli

Abbiamo ridotto il rischio, letteralmente

Rimuovendo i dati sensibili dei clienti dal percorso di formazione, l'azienda ha eliminato il rischio di conformità e ha guadagnato velocità. Utilizzando casi limite sintetici, hanno aumentato la robustezza del modello. E costruendo tutto internamente, ora possiedono un framework ripetibile per ogni versione futura. Immagini includevano grafici di distribuzione di dati sintetici e di benchmark, mappe termiche del punteggio di rischio per segmento driver e rapporti di convalida che confrontavano le prestazioni del modello su dati di controllo sintetici e reali.

Cronologia di implementazione

Settimane 1–4: requisiti, accesso ai benchmark telematici e progettazione del generatore. Settimane 5–8: generazione di dati sintetici (profili da 500.000) e convalida rispetto ai benchmark. Settimane 9-12: formazione del modello, convalida (benchmark del 93%) e integrazione con i flussi di lavoro di ricerca e sviluppo. Settimane 13–14: consegna e documentazione. Consegna end-to-end in meno di quattro mesi, rispetto a più di sei mesi per un tipico ciclo di raccolta e conformità di dati reali.

Fai il passo successivo

Scopri come Intellimark può aiutarti ad addestrare l'intelligenza artificiale in modo sicuro, con dati sintetici che si muovono più velocemente della realtà.

Contattaci

Risultato

La casa automobilistica ha addestrato i suoi modelli senza toccare i dati reali del conducente:

Metriche/Risultati

500,000+ profili driver sintetici creati

93% benchmark di accuratezza rispetto ai dati del mondo reale

17 variabili di rischio simulate nelle condizioni di guida

<4 mesi dal lancio alla produzione rispetto a 6+ mesi per l'approccio ai dati reali

Fin.

I dati sintetici hanno dato loro ciò che i dati reali non potevano: velocità, copertura e controllo.

Esplora di più

Ricerca · Analitica

Centro · L'esperienza ha un impatto