Essai routier synthétique

Comment un constructeur automobile a utilisé les données synthétiques des conducteurs pour former des modèles de risque, sans collecter un seul trajet dans le monde réel

Rouleau

Défi

Données sans pilotes

Un constructeur automobile international développait un modèle de risque d'accident de nouvelle génération pour prendre en charge l'ingénierie de sécurité, la planification des garanties et les partenariats d'assurance potentiels. Les données réelles sur le comportement des conducteurs étaient essentielles, mais leur collecte auprès des véhicules ou des conducteurs a déclenché des obstacles en matière de confidentialité, de consentement et de réglementation. L'entreprise avait besoin d'un moyen de former et de valider des modèles de risque à grande échelle sans retarder les cycles de produits ni exposer les données des clients.

Le constructeur automobile avait besoin de former un modèle de risque d’accident de nouvelle génération. Mais la collecte de données comportementales auprès de vrais conducteurs a soulevé des problèmes de confidentialité et a nécessité des mois de contrôle de conformité. Les partenaires assureurs se sont montrés prudents. Les clients se méfiaient. Et les équipes juridiques internes ont fait une pause.

Pas assez, pas assez vite

Les données de conduite réelles étaient rares. Les enregistrements télématiques ne couvraient que 4 % des véhicules. Les cas extrêmes comme les freinages brusques, la conduite de nuit ou les ménages à plusieurs conducteurs étaient sous-représentés. Et même lorsque les données existaient, leur nettoyage, leur anonymisation et leur sécurisation prenaient des mois.

Et si vous pouviez le simuler ?

Et si vous pouviez générer des données réalistes sur le comportement des conducteurs à grande échelle, sans informations personnelles, sans capteurs et sans délais de conformité ? Et si vous pouviez former des modèles de risque sur des milliers de profils de conducteurs différents, sans jamais suivre une personne réelle ?

Approche

Nous avons donc généré les pilotes

Nous avons créé un ensemble de données synthétiques sur les conducteurs : 500 000 profils uniques et simulés avec des historiques de trajet complets, des types de véhicules, des niveaux de risque et des balises géographiques. Le comportement de conduite a été généré à l’aide d’un moteur basé sur des règles optimisé pour imiter la télémétrie du monde réel, validé par rapport aux références télématiques existantes du constructeur automobile.

Solution

Nous avons formé le modèle

À l'aide de cet ensemble de données synthétiques, nous avons formé un modèle ML supervisé pour prédire la probabilité de risque d'accident sur 17 caractéristiques basées sur le comportement. Le modèle a atteint 93 % de sa précision de référence réelle, sans jamais utiliser de véritable pilote. Des cas extrêmes simulés nous ont permis de tester le modèle dans des scénarios rares et à haut risque qui seraient difficiles à collecter à grande échelle.

Méthodologie

Nous avons utilisé une approche en trois étapes : (1) concevoir un générateur de données synthétiques calibré sur les références télématiques existantes du constructeur automobile (vitesse, freinage, durée du trajet, heure de la journée, géographie) ; (2) générer plus de 500 000 profils de conducteurs avec des historiques de trajet complets et des fonctionnalités pertinentes en matière de risque ; (3) former et valider le modèle de risque sur des données synthétiques, puis comparer l'exactitude et la stabilité aux modèles formés sur des données réelles lorsqu'elles sont disponibles. La validation a permis de garantir que la distribution synthétique correspondait aux principales statistiques du monde réel.

Sources de données

Profils de conducteurs synthétiques (500 000+) avec historiques de déplacements, type de véhicule et balises géographiques. Des références télématiques réelles (internes, anonymisées) utilisées uniquement à des fins d'étalonnage et de validation : aucune donnée individuelle du conducteur dans l'ensemble de formation. Étiquettes de risque et 17 caractéristiques basées sur le comportement (par exemple, fréquence de freinage brusque, part de conduite de nuit, kilométrage) dérivées du moteur synthétique. Aucune information personnelle ; aucun consentement requis; aucun retard de mise en conformité.

Nous l'avons intégré à la R&D

Le modèle de risque est désormais utilisé par les équipes d'ingénierie de sécurité et de science des données pour tester les systèmes des véhicules, éclairer les projections de garantie et soutenir les expériences de tarification d'assurance, sans avoir besoin de données en direct sur les conducteurs ni d'attendre les cycles de collecte de données.

"Auparavant, nous attendions six mois pour obtenir suffisamment de données de conduite. Nous pouvons désormais simuler ce dont nous avons besoin, du jour au lendemain."

— Scientifique principal des données, sécurité des véhicules

Nous avons littéralement réduit les risques

En supprimant les données sensibles des clients du pipeline de formation, l'entreprise a éliminé les risques de non-conformité et a gagné en rapidité. En utilisant des cas limites synthétiques, ils ont amélioré la robustesse du modèle. Et en construisant tout cela en interne, ils possèdent désormais un cadre reproductible pour chaque version future. Visuels comprenait des diagrammes de distribution de données synthétiques et de référence, des cartes thermiques de score de risque par segment de pilote et des rapports de validation comparant les performances du modèle sur des données synthétiques et réelles.

Calendrier de mise en œuvre

Semaines 1 à 4 : Exigences, accès aux références télématiques et conception du générateur. Semaines 5 à 8 : Génération de données synthétiques (500 000 profils) et validation par rapport à des références. Semaines 9 à 12 : formation sur les modèles, validation (référence à 93 %) et intégration avec les flux de travail de R&D. Semaines 13 à 14 : remise et documentation. Livraison de bout en bout en moins de quatre mois, contre six mois ou plus pour un cycle typique de collecte de données réelles et de conformité.

Passez à l'étape suivante

Découvrez comment Intellimark peut vous aider à entraîner l'IA en toute sécurité, avec des données synthétiques qui évoluent plus rapidement que la réalité.

Contactez-nous

Résultat

Le constructeur automobile a entraîné ses modèles sans toucher aux données réelles des conducteurs :

Mesures/Résultats

500,000+ profils de conducteur synthétiques créés

93% référence de précision par rapport aux données du monde réel

17 variables de risque simulées dans des conditions de conduite

<4 mois du lancement à la production contre plus de 6 mois pour une approche fondée sur des données réelles

Ailette.

Les données synthétiques leur ont apporté ce que les données réelles ne pouvaient pas offrir : vitesse, couverture et contrôle.

Explorer davantage

Recherche · Analytique

Moyeu · De l'expérience à l'impact