Rozwiązanie
Wytrenowaliśmy model
Korzystając z tego syntetycznego zbioru danych, przeszkoliliśmy nadzorowany model uczenia maszynowego w celu przewidywania prawdopodobieństwa ryzyka wypadku na podstawie 17 cech opartych na zachowaniu. Model osiągnął 93% swojej rzeczywistej dokładności porównawczej – bez użycia prawdziwego sterownika. Symulowane przypadki brzegowe pozwoliły nam przetestować model w warunkach skrajnych w rzadkich scenariuszach wysokiego ryzyka, które trudno byłoby zebrać na dużą skalę.
Metodologia
Zastosowaliśmy podejście składające się z trzech etapów: (1) zaprojektowaliśmy generator danych syntetycznych skalibrowany do istniejących wskaźników telematycznych producenta samochodów (prędkość, hamowanie, długość podróży, pora dnia, położenie geograficzne); (2) wygenerować ponad 500 tys. profili kierowców z pełną historią podróży i funkcjami związanymi z ryzykiem; (3) wyszkolić i zweryfikować model ryzyka na danych syntetycznych, a następnie porównać dokładność i stabilność z modelami wytrenowanymi na danych rzeczywistych, jeśli są dostępne. Walidacja zapewniła, że dystrybucja syntetyczna była zgodna z kluczowymi statystykami ze świata rzeczywistego.
Źródła danych
Syntetyczne profile kierowców (ponad 500 tys.) z historiami podróży, typem pojazdu i znacznikami geograficznymi. Testy porównawcze telematyki w świecie rzeczywistym (wewnętrzne, anonimowe) wykorzystywane wyłącznie do kalibracji i walidacji — w zbiorze szkoleniowym nie znajdują się żadne dane dotyczące poszczególnych kierowców. Etykiety ryzyka i 17 cech opartych na zachowaniu (np. częstotliwość gwałtownego hamowania, udział w jazdach nocnych, przebieg) pochodzących z silnika syntetycznego. Brak informacji umożliwiających identyfikację; nie jest wymagana zgoda; brak opóźnień w przestrzeganiu przepisów.