Syntetyczna jazda próbna

Jak producent samochodów wykorzystał syntetyczne dane kierowców do szkolenia modeli ryzyka – bez gromadzenia danych dotyczących ani jednej podróży w świecie rzeczywistym

Zwój

Wyzwanie

Dane bez sterowników

Globalny producent samochodów opracowywał model ryzyka wypadków nowej generacji, aby wspierać inżynierię bezpieczeństwa, planowanie gwarancji i potencjalne partnerstwa ubezpieczeniowe. Dane o zachowaniu kierowców w świecie rzeczywistym były niezbędne, ale gromadzenie ich z pojazdów lub kierowców wiązało się z przeszkodami w zakresie prywatności, zgody i przepisów. Firma potrzebowała sposobu na szkolenie i walidację modeli ryzyka na dużą skalę bez opóźniania cykli produktów i ujawniania danych klientów.

Producent samochodów musiał wytrenować model ryzyka wypadków nowej generacji. Jednak zbieranie danych behawioralnych od prawdziwych kierowców wzbudziło obawy dotyczące prywatności i wymagało miesięcy przeglądu zgodności. Partnerzy ubezpieczeniowi byli ostrożni. Klienci byli ostrożni. Wewnętrzne zespoły prawne włączyły pauzę.

Za mało, za mało szybko

Dane dotyczące jazdy w świecie rzeczywistym były rzadkie. Zapisy telematyczne obejmowały jedynie 4% pojazdów. Niedostatecznie reprezentowano przypadki skrajne, takie jak gwałtowne hamowanie, jazda nocą lub gospodarstwa domowe, w których uczestniczy wielu kierowców. Nawet jeśli dane istniały, ich czyszczenie, anonimizacja i zabezpieczanie zajmowało miesiące.

A co jeśli mógłbyś to symulować?

Co by było, gdyby można było generować realistyczne dane o zachowaniu kierowców na dużą skalę – bez danych osobowych, bez czujników i bez opóźnień w przestrzeganiu przepisów? Co by było, gdybyś mógł trenować modele ryzyka na tysiącach różnorodnych profili kierowców – bez konieczności śledzenia prawdziwej osoby?

Zbliżać się

Wygenerowaliśmy więc sterowniki

Stworzyliśmy syntetyczny zbiór danych kierowców: 500 000 unikalnych, symulowanych profili z pełną historią podróży, typami pojazdów, poziomami ryzyka i znacznikami geograficznymi. Zachowanie kierowcy zostało wygenerowane przy użyciu opartego na regułach silnika dostrojonego do naśladowania telemetrii w świecie rzeczywistym i zweryfikowanego na podstawie istniejących testów telematycznych producenta samochodów.

Rozwiązanie

Wytrenowaliśmy model

Korzystając z tego syntetycznego zbioru danych, przeszkoliliśmy nadzorowany model uczenia maszynowego w celu przewidywania prawdopodobieństwa ryzyka wypadku na podstawie 17 cech opartych na zachowaniu. Model osiągnął 93% swojej rzeczywistej dokładności porównawczej – bez użycia prawdziwego sterownika. Symulowane przypadki brzegowe pozwoliły nam przetestować model w warunkach skrajnych w rzadkich scenariuszach wysokiego ryzyka, które trudno byłoby zebrać na dużą skalę.

Metodologia

Zastosowaliśmy podejście składające się z trzech etapów: (1) zaprojektowaliśmy generator danych syntetycznych skalibrowany do istniejących wskaźników telematycznych producenta samochodów (prędkość, hamowanie, długość podróży, pora dnia, położenie geograficzne); (2) wygenerować ponad 500 tys. profili kierowców z pełną historią podróży i funkcjami związanymi z ryzykiem; (3) wyszkolić i zweryfikować model ryzyka na danych syntetycznych, a następnie porównać dokładność i stabilność z modelami wytrenowanymi na danych rzeczywistych, jeśli są dostępne. Walidacja zapewniła, że dystrybucja syntetyczna była zgodna z kluczowymi statystykami ze świata rzeczywistego.

Źródła danych

Syntetyczne profile kierowców (ponad 500 tys.) z historiami podróży, typem pojazdu i znacznikami geograficznymi. Testy porównawcze telematyki w świecie rzeczywistym (wewnętrzne, anonimowe) wykorzystywane wyłącznie do kalibracji i walidacji — w zbiorze szkoleniowym nie znajdują się żadne dane dotyczące poszczególnych kierowców. Etykiety ryzyka i 17 cech opartych na zachowaniu (np. częstotliwość gwałtownego hamowania, udział w jazdach nocnych, przebieg) pochodzących z silnika syntetycznego. Brak informacji umożliwiających identyfikację; nie jest wymagana zgoda; brak opóźnień w przestrzeganiu przepisów.

Zintegrowaliśmy to z badaniami i rozwojem

Model ryzyka jest obecnie używany przez zespoły inżynierów bezpieczeństwa i analityki danych do testowania systemów pojazdów, tworzenia prognoz gwarancyjnych i wspierania eksperymentów dotyczących ustalania cen ubezpieczeń – bez konieczności posiadania aktualnych danych kierowców lub czekania na cykle gromadzenia danych.

„Kiedyś czekaliśmy sześć miesięcy na wystarczającą ilość danych dotyczących jazdy. Teraz możemy symulować to, czego potrzebujemy – w ciągu jednej nocy”.

— Główny analityk danych, bezpieczeństwo pojazdów

Dosłownie zmniejszyliśmy ryzyko

Usuwając wrażliwe dane klientów z procesu szkoleniowego, firma wyeliminowała ryzyko braku zgodności i zyskała na szybkości. Dzięki zastosowaniu syntetycznych obudów krawędziowych zwiększono solidność modelu. Budując to wszystko we własnym zakresie, mają teraz powtarzalne ramy dla każdej przyszłej wersji. Wizualizacje obejmowały wykresy rozkładu danych syntetycznych i porównawczych, mapy cieplne oceny ryzyka według segmentów czynników oraz raporty z walidacji porównujące wydajność modelu na danych syntetycznych i rzeczywistych.

Harmonogram realizacji

Weeks 1–4: Requirements, telematics benchmark access, and generator design. Weeks 5–8: Synthetic data generation (500K profiles) and validation against benchmarks. Weeks 9–12: Model training, validation (93% benchmark), and integration with R&D workflows. Tygodnie 13–14: Przekazanie i dokumentacja. Kompleksowa dostawa w czasie krótszym niż cztery miesiące — w porównaniu z six+ months for a typical real-data collection and compliance cycle.

Zrób kolejny krok

Zobacz, jak technologia Intellimark może pomóc w bezpiecznym szkoleniu sztucznej inteligencji — dzięki syntetycznym danym, które poruszają się szybciej niż rzeczywistość.

Skontaktuj się z nami

Wynik

Producent samochodów szkolił swoje modele bez dotykania prawdziwych danych kierowcy:

Metryki / Wyniki

500,000+ utworzone syntetyczne profile kierowców

93% benchmark dokładności w porównaniu z danymi ze świata rzeczywistego

17 symulowane zmienne ryzyka w różnych warunkach jazdy

<4 miesiące od rozpoczęcia do produkcji w porównaniu z ponad 6 miesiącami w przypadku podejścia opartego na rzeczywistych danych

Płetwa.

Dane syntetyczne zapewniły im to, czego nie mogły zapewnić rzeczywiste dane: szybkość, zasięg i kontrolę.

Odkryj więcej

Badania · Analityka

Centrum · Doświadczenie do wpływu