Inteligencia Artificial en Banca de Consumo
OBJETIVO
La Ciencia de datos o Data Science es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento. El objetivo del curso es mostrar al participante el proceso de recopilación, organización y análisis de grandes conjuntos de datos, Big Data, para descubrir patrones y desarrollar herramientas predictivas. La banca dispone de información transaccional interna y de información externa incluyendo las redes sociales que puede manipular y comprender en esta disrupción digital.
Se explica como almacenar y procesar Big Data usando Hive de Hadoop y como construir modelos empleando lenguajes de programación R y SAS.
Se exponen las definiciones, características y métricas sobre la analítica de Datos, analítica Web y analítica social aplicados a la banca.
Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers.
Se muestran modelos predictivos de tipo econométricos contrastando frente a modelos de machine learning tales como los árboles de decisión, redes neuronales, redes bayesianas, Support Vector Machines y potentes modelos de conjunto. Más adelante se explica, detalladamente, la validación de estos modelos.
Finalmente se explica la aplicación de la ciencia de datos en las siguientes áreas: Riesgo de crédito, Marketing y CRM Analítico, Fraude y Redes Sociales. En riesgo de crédito se abordan metodologías para construir modelos de credit scoring. En Marketing y CRM, se exponen modelos analíticos de cross selling, response score, customer lifetime value, modelos de abandono y segmentación avanzada de Clientes. Se explica como pueden ayudar las Redes Sociales a mejorar el conocimiento del Cliente a través de la ciencia de datos. En cuanto a Fraude, se explican modelos analíticos para detectar el fraude en la banca.
Se exponen potentes ejercicios y macros tanto en SAS como en R que permiten desarrollar herramientas predictivas y aplicarlas inmediatamente en el trabajo del participante.
¿QUIÉNES DEBEN ASISTIR?
El Curso esta dirigido a profesionistas de entidades financieras interesados en aplicaciones prácticas de Data Science en Banca así como a los responsables de los departamentos de marketing, crédito, riesgos, fraude, finanzas y recuperaciones. Para la mejor comprensión de los temas es recomendable que el participante tenga conocimientos de estadística.
PRECIO DEL CURSO LIVE ON LINE (30 Horas Lectivas)
Precio: 4.900 €
Horarios:
-
Santiago de Chile, Sao Paulo: Lunes a Viernes: 18:00 a 21:00 Hrs.
-
Madrid, Barcelona: Lunes a Viernes: 19:00 a 22:00 Hrs.
-
México, D.F., Lima, Quito, Bogotá, San José: Lunes a Viernes: 19:00 a 22:00 Hrs.
El Precio incluye: Presentaciones en formato PDF y ejercicios de Excel, Hive, R y Python.
AGENDA Data Science y Big Data en Banca de Consumo
BIG DATA
Módulo 1: Big Data
-
Definición de Big Data
-
Big Data en las entidades financieras
-
Tipología de datos
-
Estructurados
-
Semiestructurados
-
Datos No Estructurados
-
-
Características del Big Data
-
Volumen
-
Velocidad
-
Variedad
-
Veracidad
-
Valor
-
-
Tamaño de los Big Data
-
Fuentes de grandes volúmenes
-
Origen de las fuentes de datos
-
Los datos de la web
-
Datos de Texto
-
Datos de sensores
-
Datos de RFID y NFC
-
Datos de operadores de telecos
-
Datos de redes inteligentes
Módulo 2: Arquitectura del Big Data
-
La arquitectura del Big Data
-
Data Warehouse y Data Mart
-
Bases de datos
-
Hadoop
-
Plataformas de Hadoop
-
Analítica de Big Data
-
Gobierno del Big Data
-
Seguridad y privacidad del Big Data
-
Metadatos del Big Data
-
Arquitectura Big Data Oracle e IBM
PROCESAMIENTO Y ALMACENAMIENTO
Módulo 3: HADOOP y HIVE
-
¿Que es Hadoop?
-
El ecosistema Hadoop
-
Componentes de Hadoop
-
Map Reduce
-
Desarrollo de aplicaciones Hadoop
-
Programación Hadoop
-
Hive
-
Pig
-
-
Plataforma de Hadoop
-
Ejercicio 1: Virtual Machine y uso de Hadoop
-
Ejercicio 2: Queries SQL en Hive y uso de HDFS en Hadoop de bases de datos de behavior scoring
-
Ejercicio 3:Cargar datos en tablas
-
Ejercicio 4: Unir y combinar trablas
-
Ejercicio 5: Queries de datos semi-estructurados
-
Ejercicio 6: Creación de modelo analítico de credit scoring en Hive
INTELIGENCIA ARTIFICIAL EN BANCA
Módulo 4: Banca de Consumo
-
La banca retail en Europa y América
-
Disrupción digital
-
Análisis de perfiles
-
Cenntenials
-
Millenians
-
Generación X
-
Baby Boomers
-
-
Customer Centric Model
-
Ciclo de vida del Cliente
-
Customer Relationship Management
-
Diseño de Producto
-
Pricing
-
Análisis de los Canales de distribución en la banca
-
¿Sucursales físicas?
-
Call center
-
ATM
-
Online Banking
-
Mobile Banking
-
Adaptación tecnológica de canales emergentes
-
-
Campañas de marketing
-
Producto
-
Branding
-
Modelo de la adquisición
-
Campaña piloto
-
Cross Selling
-
Deep Selling
-
Up Selling
-
Retención y vinculación de Clientes
-
Outbound e Inbound Marketing en Banca
-
Marketing Call Center
-
Correo directo
-
e-mail. banner ads, e.mail marketing, promociones en web site
-
Campaña de expansión de negocio
-
Publicidad en televisión y radio
-
Google adwords, search
-
Redes sociales: Facebook, Twitter, Linkedin, Pinterest
-
Planificación financiera y objetivos puntuales
-
-
Customer Analytics
-
Segmentación del Cliente
-
Área Geográfica
-
Criterios demográficos
-
Comportamiento y estilo de vida
-
Fuentes de Información
-
Big data
-
Fuentes internas
-
Principales fuentes externas
-
Redes Sociales
-
Oferta Comercial y alcances dirigidos a mercado objetivo
-
-
Gestión y seguimiento de campañas
-
Score de Respuesta: Modelización y uso
-
Informe financiero de seguimiento
-
Rentabilidad, Charge Offs, Número de cuentas abiertas, NPL, etc.
-
Análisis Vintage de las acciones comerciales
-
Cumplimiento del Risk Appetite y Regulaciones
-
Planes de acción
-
Caso de Estudio: Análisis de costes y beneficios del Data Science aplicado en banco retail Europeo 2005-2014.
ANÁLISIS DE DATOS
Módulo 5: Gestión avanzada de los datos
-
Tipología de datos
-
Datos transaccionales
-
Unstructured data embebida en documentos de texto
-
Social Media Data
-
Fuentes de datos
-
Revisión del dato
-
Definición del Target
-
Horizonte temporal de la variable objetivo
-
Muestreo
-
Muestreo Aleatorio
-
Muestreo Estratificado
-
Muestreo Rebalanceado
-
-
Análisis Exploratorio:
-
Histogramas
-
Q-Q Plot
-
Análisis de momentos
-
Box Plot
-
-
Tratamiento de los valores Missing
-
Imputación
-
Borrar
-
Mantener
-
-
Técnicas avanzadas de detección de Outliers y tratamiento
-
Z-Score
-
Distancia de Mahalanobis
-
-
Estandarización de los Datos
-
Categorización de variables
-
Equal Interval Binning
-
Equal Frecuency Binning
-
Prueba Ji-Cuadrada
-
-
Binary Coding
-
WOE Coding
-
Definición WOE
-
Análisis Univariante con variable Target
-
Selección de variables
-
Tratamiento de Variables continuas
-
Tratamiento de Variables Categóricas
-
Fisher Score
-
Gini
-
Information Value
-
Pearson Correlation
-
Cramer Von Misses
-
Optimización de variables continuas
-
Optimización de variables categóricas
-
Àrboles de Decisión
-
-
Ejercicio 7: Análisis Exploratorio en R
-
Ejercicio 8: Detección y tratamiento de Outliers usando Z-score
-
Ejercicio 9: Muestreo estratificado y Aleatorio
-
Ejercicio 10: Análisis del Weight of Evidence en Excel
-
Ejercicio 11: Análisis univariante en percentiles en R
-
Ejercicio 12: Análisis univariante óptimo variable continua en Excel
-
Ejercicio 14: Estimación del KS, Gini e IV de cada variable en Excel
-
Ejercicio 15: Optimización de variables categóricas en R
MACHINE LEARNING
Módulo 6: Machine Learning
-
Definición del Machine Learning
-
Metodología del Machine Learning
-
Almacenamiento de la Data
-
Abstracción
-
Generalización
-
Evaluación
-
-
Aprendizaje Supervisado y No Supervisado
-
Tipología de algoritmos de Machine Learning
-
Pasos para implementar un algoritmo
-
Recogida de información
-
Análisis Exploratorio
-
Entrenamiento del modelo
-
Evaluación del Modelo
-
Mejoras al modelo
-
Machine Learning en riesgo crédito de consumo
-
-
Machine Learning en modelos de credit scoring
-
Principales Herramientas: Microsoft Azure, SAS Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark, Python,etc.
Módulo 7: Clustering y Componentes Principales
-
Segmentación del Cliente
-
Tipología de la segmentación
-
Modelización de la clasificación
-
Análisis Recency, Frequency Monetary (RFM) en banca retail
-
Análisis de banca móvil
-
Clusters Jerárquicos
-
Dendrograma
-
Model Based Clustering
-
Density Based Clustering
-
Comparativo de Clusters
-
Distancia Interclusters
-
Distancia Intraclusters
-
-
Gráfico de disimilitud
-
Validación de Clusters
-
Análisis de Componentes principales (PCA)
-
Visualización avanzada de PCA
-
Ejercicio 16: Segmentación RFM de tarjetas de crédito
-
Ejericicio 17: Segmentación usando clusters en R
-
Ejercicio 18: Segmentación de Clientes de Banca Móvil usando Componentes principales en Python
-
Ejercicio 19: Segmentación de Clientes Banca Móvil usando clusters
-
Ejercicio 20: Visualización de componentes principales y clusters en R
Módulo 8: Algoritmos de Clasificación
-
Árboles de Decisión
-
Modelización
-
Ventajas e inconvenientes
-
Procesos de Recursión y Particionamiento
-
Recursive partitioning tree
-
Pruning Decision tree
-
Conditional inference tree
-
Visualización de árboles
-
Medición de la predicción de árboles de decisión
-
Modelo CHAID
-
Modelo C5.0
-
-
K-Nearest Neighbors
-
Modelización
-
Ventajas e inconvenientes
-
Distancia Euclidiana
-
Distancia Manhattan
-
Selección del valor K
-
-
Modelo Probabilístico: Naive Bayes
-
Teorema de Bayes
-
Estimador de Laplace
-
Clasificación con Naive Bayes
-
Ventajas e inconvenientes
-
-
Ejercicio 21: Árbol de decisición C5.0 vs. Chaid en R
-
Ejercicio 22: Segmentación de Clientes de banca móvil usando K means Clustering en R
-
Ejercicio 23: Naive Bayes en R
Módulo 9: Modelos de Regresión
-
Regresión Logística
-
Modelización
-
Ventajas e inconvenientes en el riesgo de crédito
-
Validación modelo de regresión logística
-
Regresión Logística para datos de panel
-
-
Regresión Cox
-
Cox proportional hazards model
-
-
Regresiones Avanzadas
-
Regresión Logística Multinomial
-
Modelo líneal generalizado GLM
-
Tipología de distribuciones y funciones enlace
-
-
Modelo GLMM
-
Inflated Beta Regression
-
Regresión Piecewise
-
Fractional Regression
-
Quantile regression
-
-
Ejercicio 24: Regresión Logística método stepwise en R
-
Ejercicio 25: Regresión Inflated Beta Regression
-
Ejercicio 26: Regresión Piecewise en Excel y SAS
-
Ejercicio 27: Cox Regression en R
Módulo 11: Algoritmos Avanzados NN y SVM
-
Support Vector Machine
-
Hiperplano óptimo
-
Support Vectors
-
Añadir costes
-
Ventajas e Inconvenientes
-
Visualiización del SVM
-
Tuning SVM
-
Truco de Kernel
-
-
Redes Neuronales (Neural Networks NN)
-
Entrenamiento de Perceptron
-
Perceptrón Multicapa
-
Algoritmo de backpropagation
-
Procedimientos de entrenamiento
-
Tuning NN
-
Visualización de NN
-
Ventajas e inconvenientes
-
-
Ejercicio 28: Support Vector Machine en R
-
Ejercicio 29: Support Vector Machine en R
-
Ejercicio 30: Redes Neuronales: perceptron en R y Python
Módulo 12: Ensemble Learning
-
Modelos de conjuntos
-
Bagging
-
Random Forest
-
Boosting
-
Adaboost
-
Boosting y Bagging para modelos de regresión
-
Ventajas e inconvenientes
-
Ejercicio 31: Ensemble models en R
-
Ejercicio 32: Random Forest en R
-
Ejercicio 33: Adaboost en R
Módulo 14: Validación del modelos
-
Verificación p-values en regresiones
-
R cuadrado, MSE, MAD
-
Diagnóstico de los residuos
-
Test de Bondad de Ajuste
-
Deviance
-
Bayesian Information Criterion (BIC)
-
Akaike Information Criterion
-
-
Multicolinealidad Multivariante
-
Validación cruzada
-
Bootstrapping del error
-
Matriz de confusión caso binario
-
Matriz de confusión caso multinomial
-
Prueba de Estabilidad
-
Principales test de poder discriminante:
-
KS
-
Curva ROC
-
Curva Lift
-
Gini Index
-
Cumulative Accuracy Profile
-
Distancia de Kullback-Leibler
-
-
Intervalos de confianza
-
Jackknifing con test de poder discriminante
-
Bootstrapping con test de poder discriminante
-
Estadístico Kappa
-
K-Fold Cross Validation
-
Evaluación del ROI
-
Gráficos del Profit/ROI
-
-
Ejercicio 34: Test de Bondad de Ajuste Regresión líneal
-
Ejercicio 35: Test de Bondad de Ajuste Regresión Logística
-
Ejercicio 36: Validación cruzada en R
-
Ejercicio 37: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel
-
Ejercicio 38: Matriz de confusión y Kappa
-
Ejercicio 39: Jackkinifng en SAS
-
Ejercicio 40: Bootstrapping de Gini/ROC en R
-
Ejercicio 41: K-Fold Cross Validation en R
-
Ejercicio 42: Evaluación del ROI en Excel
APLICACIÓN EN RIESGO CRÉDITO
Módulo 15: Credit Scoring y Behavior Scoring
-
Definición del Target
-
Definición del horizonte temporal del modelo predictivo
-
Componentes Principales para reducir variables
-
Modelos Econométricos para credit scoring
-
Regresión lineal
-
Regresión Logística
-
Regresión Logística Multinomial
-
Regresión Piecewise
-
Regresión Logística Panel Data
-
Regresión Cox
-
-
Interpretación de los coeficientes
-
Interpretación de los Odds Ratios
-
Machine Learning para credit scoring
-
Árboles de Decisión
-
Random Forest
-
Redes Neuronales
-
Perceptrón Multicapa
-
Algoritmos Genéticos
-
Redes Bayesianas
-
Support Vector Machines
-
Ensemble Learning
-
-
Clasificación del Scorecard
-
Scorecard WOE
-
Scorecard Binario
-
Scorecard Continuo
-
-
Reescalamiento del Scorecard
-
Análisis del Factor y Offset
-
Scorecard WOE
-
Scorecard Binario
-
-
Técnicas de Reject Inference
-
Cut-Off
-
Parcelling
-
Fuzzy Augmentation
-
-
Credit Scoring de Admisión
-
Score de Tarjetas de crédito
-
Score de Hipotecas
-
Score de consumo
-
Score de Automóvil
-
-
Behavior Score
-
Transaction Scoring
-
-
Big Data Scoring
-
Social Media Scorring
-
Score para millenians
-
Score para generación X
-
Score para Baby Boomers
-
-
Técnicas Avanzadas de punto de corte
-
EJERCICIOS DE CREDIT SCORING DE ADMISIÓN
-
Ejercicio 43: Regresión Logística método stepwise en R
-
Ejercicio 44: Regresión Piecewise en Excel y R
-
Ejercicio 45: Redes Neuronales: en R
-
Ejercicio 46: Árboles de decisión en R
-
Ejercicio 47: Cox Regression en R y SAS
-
Ejercicio 48: Support vector machines en R
-
Ejercicio 49: Random Forest en R
-
Ejercicio 50: Bagging y Boosting en R
-
Ejercicio 51: Scorecard WOE en Excel y R
-
Ejercicio 52: Comparativa de Modelos en Excel
-
Ejercicio 53: Reject Inference Fuzzy Augmentation en SAS
-
Ejercicio 54: Selección del Punto de Corte en Excel y R
-
EJERCICIOS DE SCORE DE COMPORTAMIENTO
-
Ejercicio 55:Behavior Score con regresión logística en R
-
Ejercicio 55: Behavior Score Regresión con redes neuronales y SVM en R
-
Ejercicio 56: Behavior Score con ensamble learning en R
-
Ejercicio 57: Comparativo de modelos
APLICACIÓN EN MARKETING Y CRM
Módulo 16: Modelos de Scoring
-
Modelización de Herramientas Predictivas
-
Tipología de herramientas:
-
Response Score
-
Income Score
-
Cross Selling
-
Credit Scoring
-
Score de Ingresos
-
Score de Abandono
-
Revenue Score
-
Combinación de modelos
-
-
Matrices duales
-
Caso de Estudio 1: Modelo de abandono en banco europeo usando machine learning
-
Caso de Estudio 2: Modelo predictivo de imágenes para predecir el abandono
-
MODELO CROSS SELLING
-
Ejercicio 58: Redes Bayesianas en R
-
Ejercicio 59: Árboles de decisión en python
-
MODELO RESPONSE SCORE
-
Ejercicio 60: Regresión Logística
-
Ejercicio 61: Ensemble models Response Score en R
-
CHURN SCORE EN TARJETAS DE CRÉDITO
-
Ejercicio 62: Regresión Logística Panel Data python
-
Ejercicio 63: Support vector machines en python
-
Ejercicio 64: Árboles de decisión C5.0 en python
-
Ejercicio 65: Random Forest en python
-
Ejercicio 66: Ensemble models Churn Score en python
Módulo 17: Customer Life Time Value (CLV)
-
Definición CLV
-
Estrategias para incrementar el CLV
-
Customer Loyalty
-
Enfoque RFM
-
Past Customer Value
-
Share Of Wallet
-
-
Modelización del CLV
-
Enfoque Agregado
-
Enfoque Individual
-
Componentes del CLV
-
Drivers del CLV
-
Modelo de Retención simple
-
Modelo de Retención General
-
Modelos Supervivencia
-
Ejercicio 67: Estimación CLV en Excel
-
Ejercicio 68: Modelo de Retención simple en SAS
-
Ejercicio 69: Modelo de Retención General y análisis de supervivencia y Hazard rates en python
APLICACIÓN EN REDES SOCIALES
Módulo 18: Analítica Social en Facebook
-
Analítica en las Redes Sociales
-
Definiciones de redes
-
Gráficos
-
Sociogramas
-
Vértices, bordes, nodos, pesos
-
Principales Métricas en la Analìtica Social
-
Medidas de centralidad en las redes
-
Social Network learner
-
Local Model
-
Network Model
-
Probabilistic Relational Neighbor Classifier
-
Relational Logisitic Regression
-
Collective Inferencing
-
Visualización de las Redes Sociales
-
Taxonomía de las visualizaciones
-
Visualización y analítica
-
Analítica Social en Facebook usando R
-
Analítica Social en Twitter usando R
-
Analítica Social en Google Analytics usando R
-
Caso de Estudio 6: Redes para predecir abandono en bancos
-
Ejercicio 70: Carga de datos y Gráficos en R
-
Ejercicio 71: Añadir Vértices en los gráficos R
-
Ejercicio 72: Visualización de Social Networks en R
-
Ejercicio 73: Añadir Vértices en los gráficos R
-
Ejercicio 74: Modelización avanzada de redes en Facebook: grado, diametro, densidad, centralidad, trazado de grafos dirigidos por fuerza,etc.
Módulo 19: Análisis de Sentimientos y Text Mining en
Redes Sociales en Twitter
-
Definición Text Mining
-
Unstructured Data
-
Análisis Exploratorio
-
Treemaps
-
Modelización predictiva en el Text Mining
-
K-Nearest Neighbors
-
-
Text Mining en las Redes Sociales
-
Keyword Search
-
Algortimos de clasificación
-
Algoritmos Clustering
-
-
Sentimiento en lingüística y Psicología
-
Subjetividad
-
Facticidad
-
-
Lingüística Computacional
-
Lexicón y Corpora
-
Enfoque basado en reglas
-
Enfoque Machine Learning
-
-
Análisis de Sentimientos en Twitter
-
Análisis y Score de polaridad
-
Support Vector Machine
-
-
Ejercicio 75: Text Mining de un documento en R
-
Ejercicio 76: Treemap de Tweets
-
Ejercicio 77: Análisis de palabras y asociaciones de tweets
-
Ejercicio 78: Clusters Jerárquicos en R
-
Ejercicio 79: Score de polaridad en Twitter
-
Ejercicio 80: Análisis de Sentimientos en Twitter con SVM
APLICACIÓN EN FRAUDE
Módulo 20: Score de Fraude en Admisión
-Variables en el scoring de fraude en admisión
-Horizonte temporal
-Segmentación
-Definición del Target
-Análisis Univariante
-Modelo Logit
-Scorecard de Fraude en Admisión
-Suspicious Score
Ejercicio 81: Scorecard Application Fraud logístico en Excel
Ejercicio 82: Modelo de Credit Scoring usando el Text Mining
Módulo 20: Score de Fraude en Seguimiento
-Tipología de Fraude
-Variables Clave
-Variable Objetivo
-Perfil del Cliente Fraudulento
-Redes Neuronales
-Modelo Logístico
-Árboles de Decisión
-Estimación y calibración de la Probabilidad de Fraude
-Principales inconvenientes en la modelización del fraude
Ejercicio 83: Redes Neuronales y SVM en R
Ejercicio 84: Ensemble Learning en SAS y R