Fraud detection is a classic adversarial analytics challenge: As soon as an automated system successfully learns to stop one scheme, fraudsters move on to attack another way. Each scheme requires looking for different signals (i.e. features) to catch; is relatively rare (one in millions for finance or e-commerce); and may take months to investigate a single case (in healthcare or tax, for example) – making quality training data scarce. This talk will cover a code walk-through, the key lessons learned while building such real-world software systems over the past few years. We'll look for fraud signals in public email datasets, using IPython and popular open-source libraries (scikit-learn, statsmodel, nltk, etc.) for data science and Apache Spark as the compute engine for scalable parallel processing. David will iteratively build a machine-learned hybrid model – combining features from different data sources and algorithmic approaches, to catch diverse aspects of suspect behavior: - Natural language processing: finding keywords in relevant context within unstructured text - Statistical NLP: sentiment analysis via supervised machine learning - Time series analysis: understanding daily/weekly cycles and changes in habitual behavior - Graph analysis: finding actions outside the usual or expected network of people - Heuristic rules: finding suspect actions based on past schemes or external datasets - Topic modeling: highlighting use of keywords outside an expected context - Anomaly detection: Fully unsupervised ranking of unusual behavior Apache Spark is used to run these models at scale – in batch mode for model training and with Spark Streaming for production use. We’ll discuss the data model, computation, and feedback workflows, as well as some tools and libraries built on top of the open-source components to enable faster experimentation, optimization, and productization of the models.

Hora

19:00 - 20:00 hs GMT+1

Organizador

Database Management
Compartir
Enviar a un amigo
Mi email *
Email destinatario *
Comentario *
Repite estos números *
Control de seguridad
Diciembre / 2025 263 webinars
Lunes
Martes
Miércoles
Jueves
Viernes
Sábado
Domingo
Lun 01 de Diciembre de 2025
Mar 02 de Diciembre de 2025
Mié 03 de Diciembre de 2025
Jue 04 de Diciembre de 2025
Vie 05 de Diciembre de 2025
Sáb 06 de Diciembre de 2025
Dom 07 de Diciembre de 2025
Lun 08 de Diciembre de 2025
Mar 09 de Diciembre de 2025
Mié 10 de Diciembre de 2025
Jue 11 de Diciembre de 2025
Vie 12 de Diciembre de 2025
Sáb 13 de Diciembre de 2025
Dom 14 de Diciembre de 2025
Lun 15 de Diciembre de 2025
Mar 16 de Diciembre de 2025
Mié 17 de Diciembre de 2025
Jue 18 de Diciembre de 2025
Vie 19 de Diciembre de 2025
Sáb 20 de Diciembre de 2025
Dom 21 de Diciembre de 2025
Lun 22 de Diciembre de 2025
Mar 23 de Diciembre de 2025
Mié 24 de Diciembre de 2025
Jue 25 de Diciembre de 2025
Vie 26 de Diciembre de 2025
Sáb 27 de Diciembre de 2025
Dom 28 de Diciembre de 2025
Lun 29 de Diciembre de 2025
Mar 30 de Diciembre de 2025
Mié 31 de Diciembre de 2025
Jue 01 de Diciembre de 2025
Vie 02 de Diciembre de 2025
Sáb 03 de Diciembre de 2025
Dom 04 de Diciembre de 2025

Publicidad

Lo más leído »

Publicidad

Más Secciones »

Hola Invitado