Prueba de manejo sintética

Cómo un fabricante de automóviles utilizó datos sintéticos de los conductores para entrenar modelos de riesgo, sin recopilar un solo viaje del mundo real

Voluta

Desafío

Datos sin controladores

Un fabricante de automóviles global estaba desarrollando un modelo de riesgo de accidentes de próxima generación para respaldar la ingeniería de seguridad, la planificación de garantías y posibles asociaciones de seguros. Los datos sobre el comportamiento de los conductores en el mundo real eran esenciales, pero recopilarlos de los vehículos o de los conductores generó obstáculos regulatorios, de privacidad y de consentimiento. La empresa necesitaba una forma de entrenar y validar modelos de riesgo a escala sin retrasar los ciclos de los productos ni exponer los datos de los clientes.

El fabricante de automóviles necesitaba entrenar un modelo de riesgo de accidentes de próxima generación. Pero la recopilación de datos de comportamiento de conductores reales generó preocupaciones sobre la privacidad y requirió meses de revisión del cumplimiento. Los socios de seguros se mostraron cautelosos. Los clientes se mostraron cautelosos. Y los equipos legales internos hicieron una pausa.

No es suficiente, no es lo suficientemente rápido

Los datos de conducción en el mundo real eran escasos. Los registros telemáticos cubrían sólo el 4% de los vehículos. Los casos extremos como frenadas bruscas, conducción nocturna o hogares con varios conductores estuvieron subrepresentados. E incluso cuando los datos existían, limpiarlos, anonimizarlos y protegerlos llevó meses.

¿Y si pudieras simularlo?

¿Qué pasaría si pudiera generar datos realistas sobre el comportamiento del conductor a escala, sin información personal, sin sensores y sin retrasos en el cumplimiento? ¿Qué pasaría si pudiera entrenar modelos de riesgo en miles de perfiles de conductores diversos, sin siquiera rastrear a una persona real?

Acercarse

Entonces generamos los controladores

Construimos un conjunto de datos sintéticos de conductores: 500.000 perfiles simulados únicos con historiales de viajes completos, tipos de vehículos, niveles de riesgo y etiquetas geográficas. El comportamiento de conducción se generó utilizando un motor basado en reglas ajustado para imitar la telemetría del mundo real, validado con los puntos de referencia telemáticos existentes del fabricante de automóviles.

Solución

Entrenamos el modelo

Utilizando este conjunto de datos sintéticos, entrenamos un modelo de ML supervisado para predecir la probabilidad de riesgo de accidentes en 17 características basadas en el comportamiento. El modelo alcanzó el 93 % de su precisión de referencia en el mundo real, sin utilizar nunca un controlador real. Los casos extremos simulados nos permitieron probar el modelo en escenarios poco comunes y de alto riesgo que serían difíciles de recopilar a escala.

Metodología

Utilizamos un enfoque de tres pasos: (1) diseñar un generador de datos sintéticos calibrado según los puntos de referencia telemáticos existentes del fabricante de automóviles (velocidad, frenado, duración del viaje, hora del día, geografía); (2) generar más de 500.000 perfiles de conductores con historiales de viajes completos y características relevantes para el riesgo; (3) entrenar y validar el modelo de riesgo con datos sintéticos, luego comparar la precisión y la estabilidad con los modelos entrenados con datos reales cuando estén disponibles. La validación garantizó que la distribución sintética coincidiera con las estadísticas clave del mundo real.

Fuentes de datos

Perfiles de conductores sintéticos (más de 500.000) con historiales de viajes, tipo de vehículo y etiquetas geográficas. Puntos de referencia telemáticos del mundo real (internos, anonimizados) utilizados solo para calibración y validación; no hay datos de conductores individuales en el conjunto de capacitación. Etiquetas de riesgo y 17 características basadas en el comportamiento (por ejemplo, frecuencia de frenado brusco, porcentaje de conducción nocturna, kilometraje) derivadas del motor sintético. Sin información de identificación personal; no se requiere consentimiento; sin retraso en el cumplimiento.

Lo integramos en I+D

El modelo de riesgo ahora lo utilizan los equipos de ingeniería de seguridad y ciencia de datos para probar sistemas de vehículos, informar proyecciones de garantía y respaldar experimentos de fijación de precios de seguros, sin necesidad de datos reales de los conductores ni esperar ciclos de recopilación de datos.

"Solíamos esperar seis meses para obtener suficientes datos de conducción. Ahora podemos simular lo que necesitamos de la noche a la mañana".

— Científico de datos principal, seguridad de vehículos

Redujimos el riesgo, literalmente

Al eliminar los datos confidenciales de los clientes del proceso de capacitación, la empresa eliminó el riesgo de cumplimiento y ganó velocidad. Al utilizar casos extremos sintéticos, aumentaron la solidez del modelo. Y al construirlo todo internamente, ahora poseen un marco repetible para cada versión futura. Imágenes incluyó gráficos de distribución de datos sintéticos frente a datos de referencia, mapas de calor de puntuación de riesgo por segmento de conductor e informes de validación que comparan el rendimiento del modelo en datos sintéticos frente a datos reales.

Cronograma de implementación

Semanas 1 a 4: requisitos, acceso a pruebas comparativas telemáticas y diseño del generador. Semanas 5 a 8: generación de datos sintéticos (500.000 perfiles) y validación frente a puntos de referencia. Semanas 9 a 12: capacitación de modelos, validación (comparación del 93 %) e integración con flujos de trabajo de I+D. Semanas 13-14: Entrega y documentación. Entrega de extremo a extremo en menos de cuatro meses—vs. Más de seis meses para un ciclo típico de cumplimiento y recopilación de datos reales.

Da el siguiente paso

Vea cómo Intellimark puede ayudarle a entrenar la IA de forma segura, con datos sintéticos que se mueven más rápido que la realidad.

Contáctenos

Resultado

El fabricante de automóviles entrenó sus modelos sin tocar datos reales del conductor:

Métricas / Resultados

500,000+ perfiles de controladores sintéticos creados

93% punto de referencia de precisión frente a datos del mundo real

17 Variables de riesgo simuladas en todas las condiciones de conducción.

<4 meses desde el inicio hasta la producción frente a más de 6 meses para el enfoque de datos reales

Aleta.

Los datos sintéticos les dieron lo que los datos reales no pudieron: velocidad, cobertura y control.

Explora más

Investigación · Analítica

Centro · Experiencia para Impactar