Test Drive Sintético

Como uma montadora usou dados sintéticos de motoristas para treinar modelos de risco – sem coletar uma única viagem no mundo real

Rolar

Desafio

Dados sem drivers

Uma montadora global estava desenvolvendo um modelo de risco de acidentes de última geração para apoiar a engenharia de segurança, o planejamento de garantias e possíveis parcerias de seguros. Os dados reais do comportamento dos motoristas eram essenciais, mas coletá-los de veículos ou motoristas gerou obstáculos de privacidade, consentimento e regulatórios. A empresa precisava de uma forma de treinar e validar modelos de risco em escala, sem atrasar os ciclos dos produtos ou expor os dados dos clientes.

A montadora precisava treinar um modelo de risco de acidentes de última geração. Mas a recolha de dados comportamentais de condutores reais levantou questões de privacidade – e exigiu meses de revisão de conformidade. Os parceiros de seguros foram cautelosos. Os clientes estavam cautelosos. E as equipes jurídicas internas fizeram uma pausa.

Não é suficiente, não é rápido o suficiente

Os dados de condução no mundo real eram escassos. Os registos telemáticos cobriram apenas 4% dos veículos. Casos extremos como frenagens bruscas, direção noturna ou domicílios com vários motoristas estavam sub-representados. E mesmo quando os dados existiam, limpá-los, torná-los anônimos e protegê-los levava meses.

E se você pudesse simular?

E se você pudesse gerar dados realistas sobre o comportamento do motorista em escala — sem informações pessoais, sem sensores e sem atrasos de conformidade? E se você pudesse treinar modelos de risco em milhares de perfis de motoristas diversos, sem nunca rastrear uma pessoa real?

Abordagem

Então geramos os drivers

Construímos um conjunto de dados sintético de motoristas: 500.000 perfis simulados exclusivos com históricos completos de viagens, tipos de veículos, níveis de risco e etiquetas geográficas. O comportamento de direção foi gerado usando um mecanismo baseado em regras ajustado para imitar a telemetria do mundo real – validado em relação aos benchmarks telemáticos existentes da montadora.

Solução

Treinamos o modelo

Usando esse conjunto de dados sintético, treinamos um modelo de ML supervisionado para prever a probabilidade de risco de acidentes em 17 recursos baseados em comportamento. O modelo atingiu 93% da precisão de benchmark do mundo real – sem nunca usar um driver real. Casos extremos simulados nos permitiram testar o modelo em cenários raros e de alto risco que seriam difíceis de coletar em escala.

Metodologia

Usamos uma abordagem de três etapas: (1) projetar um gerador de dados sintéticos calibrado para os benchmarks telemáticos existentes da montadora (velocidade, frenagem, duração da viagem, hora do dia, geografia); (2) gerar mais de 500 mil perfis de motoristas com históricos completos de viagens e recursos relevantes para riscos; (3) treinar e validar o modelo de risco em dados sintéticos e, em seguida, comparar a precisão e a estabilidade com modelos treinados em dados reais, quando disponíveis. A validação garantiu que a distribuição sintética correspondesse às principais estatísticas do mundo real.

Fontes de dados

Perfis sintéticos de motorista (mais de 500 mil) com históricos de viagem, tipo de veículo e etiquetas geográficas. Benchmarks telemáticos do mundo real (internos, anônimos) usados apenas para calibração e validação – sem dados individuais do motorista no conjunto de treinamento. Etiquetas de risco e 17 recursos baseados em comportamento (por exemplo, frequência de frenagem brusca, participação na condução noturna, quilometragem) derivados do motor sintético. Sem PII; nenhum consentimento é necessário; sem atraso de conformidade.

Nós o integramos à pesquisa e desenvolvimento

O modelo de risco agora é usado por equipes de engenharia de segurança e ciência de dados para testar sistemas de veículos, informar projeções de garantia e apoiar experimentos de precificação de seguros – sem precisar de dados de motoristas em tempo real ou esperar por ciclos de coleta de dados.

"Costumávamos esperar seis meses por dados de condução suficientes. Agora podemos simular o que precisamos durante a noite."

— Cientista Líder de Dados, Segurança Veicular

Reduzimos o risco, literalmente

Ao remover dados confidenciais dos clientes do pipeline de treinamento, a empresa eliminou o risco de conformidade e ganhou velocidade. Ao usar casos extremos sintéticos, eles aumentaram a robustez do modelo. E ao construir tudo internamente, eles agora possuem uma estrutura repetível para cada lançamento futuro. Visuais incluiu gráficos de distribuição de dados sintéticos versus dados de referência, mapas de calor de pontuação de risco por segmento de driver e relatórios de validação comparando o desempenho do modelo em dados de validação sintéticos versus reais.

Cronograma de implementação

Semanas 1–4: Requisitos, acesso a benchmark telemático e projeto do gerador. Semanas 5 a 8: Geração de dados sintéticos (perfis de 500 mil) e validação em relação a benchmarks. Semanas 9 a 12: Treinamento do modelo, validação (benchmark de 93%) e integração com fluxos de trabalho de P&D. Semanas 13–14: Transferência e documentação. Entrega ponta a ponta em menos de quatro meses — vs. mais de seis meses para um ciclo típico de coleta e conformidade de dados reais.

Dê o próximo passo

Veja como o Intellimark pode ajudá-lo a treinar IA com segurança, com dados sintéticos que se movem mais rápido que a realidade.

Contate-nos

Resultado

A montadora treinou seus modelos sem mexer nos dados reais do motorista:

Métricas/Resultados

500,000+ perfis de motorista sintéticos criados

93% benchmark de precisão versus dados do mundo real

17 variáveis de risco simuladas em condições de condução

<4 meses do início à produção versus mais de 6 meses para abordagem de dados reais

Fin.

Os dados sintéticos deram-lhes o que os dados reais não podiam: velocidade, cobertura e controlo.

Explorar mais

Pesquisar · Análise

Eixo · Experiência para impactar