Data Science en Banca

Inteligencia Artificial en Banca de Consumo

OBJETIVO

La Ciencia de datos o Data Science es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento. El objetivo del curso es mostrar al participante el proceso de recopilación, organización y análisis de grandes conjuntos de datos, Big Data, para descubrir patrones y desarrollar herramientas predictivas. La banca dispone de información transaccional interna y de información externa incluyendo las redes sociales que puede manipular y comprender en esta disrupción digital.

Se explica como almacenar y procesar Big Data usando Hive de Hadoop y como construir modelos empleando lenguajes de programación R y SAS.

Se exponen las definiciones, características y métricas sobre la analítica de Datos, analítica Web y analítica social aplicados a la banca.

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers.

Se muestran modelos predictivos de tipo econométricos contrastando frente a modelos de machine learning tales como los árboles de decisión, redes neuronales, redes bayesianas, Support Vector Machines y potentes modelos de conjunto. Más adelante se explica, detalladamente, la validación de estos modelos.

Finalmente se explica la aplicación de la ciencia de datos en las siguientes áreas: Riesgo de crédito, Marketing y CRM Analítico, Fraude y Redes Sociales. En riesgo de crédito se abordan metodologías para construir modelos de credit scoring. En Marketing y CRM, se exponen modelos analíticos de cross selling, response score, customer lifetime value, modelos de abandono y segmentación avanzada de Clientes. Se explica como pueden ayudar las Redes Sociales a mejorar el conocimiento del Cliente a través de la ciencia de datos. En cuanto a Fraude, se explican modelos analíticos para detectar el fraude en la banca.

Se exponen potentes ejercicios y macros tanto en SAS como en R que permiten desarrollar herramientas predictivas y aplicarlas inmediatamente en el trabajo del participante.

¿QUIÉNES DEBEN ASISTIR?

El Curso esta dirigido a profesionistas de entidades financieras interesados en aplicaciones prácticas de Data Science en Banca así como a los responsables de los departamentos de marketing, crédito, riesgos, fraude, finanzas y recuperaciones. Para la mejor comprensión de los temas es recomendable que el participante tenga conocimientos de estadística.

PRECIO DEL CURSO LIVE ON LINE (30 Horas Lectivas)

Precio: 4.900 €

Horarios:

Santiago de Chile, Sao Paulo: Lunes a Viernes: 18:00 a 21:00 Hrs.
Madrid, Barcelona: Lunes a Viernes: 19:00 a 22:00 Hrs.
México, D.F., Lima, Quito, Bogotá, San José: Lunes a Viernes: 19:00 a 22:00 Hrs.

El Precio incluye: Presentaciones en formato PDF y ejercicios de Excel, Hive, R y Python.

Temario

Anchor 6

AGENDA Data Science y Big Data en Banca de Consumo

BIG DATA

Módulo 1: Big Data

Definición de Big Data
Big Data en las entidades financieras
Tipología de datos
- Estructurados
- Semiestructurados
- Datos No Estructurados
Características del Big Data
- Volumen
- Velocidad
- Variedad
- Veracidad
- Valor
Tamaño de los Big Data
Fuentes de grandes volúmenes
Origen de las fuentes de datos
Los datos de la web
Datos de Texto
Datos de sensores
Datos de RFID y NFC
Datos de operadores de telecos
Datos de redes inteligentes

Módulo 2: Arquitectura del Big Data

La arquitectura del Big Data
Data Warehouse y Data Mart
Bases de datos
Hadoop
Plataformas de Hadoop
Analítica de Big Data
Gobierno del Big Data
Seguridad y privacidad del Big Data
Metadatos del Big Data
Arquitectura Big Data Oracle e IBM

PROCESAMIENTO Y ALMACENAMIENTO

Módulo 3: HADOOP y HIVE

¿Que es Hadoop?
El ecosistema Hadoop
Componentes de Hadoop
Map Reduce
Desarrollo de aplicaciones Hadoop
Programación Hadoop
- Hive
- Pig
Plataforma de Hadoop
Ejercicio 1: Virtual Machine y uso de Hadoop
Ejercicio 2: Queries SQL en Hive y uso de HDFS en Hadoop de bases de datos de behavior scoring
Ejercicio 3:Cargar datos en tablas
Ejercicio 4: Unir y combinar trablas
Ejercicio 5: Queries de datos semi-estructurados
Ejercicio 6: Creación de modelo analítico de credit scoring en Hive

INTELIGENCIA ARTIFICIAL EN BANCA

Módulo 4: Banca de Consumo

La banca retail en Europa y América
Disrupción digital
Análisis de perfiles
- Cenntenials
- Millenians
- Generación X
- Baby Boomers
Customer Centric Model
Ciclo de vida del Cliente
Customer Relationship Management
Diseño de Producto
Pricing
Análisis de los Canales de distribución en la banca
- ¿Sucursales físicas?
- Call center
- ATM
- Online Banking
- Mobile Banking
- Adaptación tecnológica de canales emergentes
Campañas de marketing
- Producto
- Branding
- Modelo de la adquisición
- Campaña piloto
- Cross Selling
- Deep Selling
- Up Selling
- Retención y vinculación de Clientes
- Outbound e Inbound Marketing en Banca
- Marketing Call Center
- Correo directo
- e-mail. banner ads, e.mail marketing, promociones en web site
- Campaña de expansión de negocio
- Publicidad en televisión y radio
- Google adwords, search
- Redes sociales: Facebook, Twitter, Linkedin, Pinterest
- Planificación financiera y objetivos puntuales
Customer Analytics
Segmentación del Cliente
- Área Geográfica
- Criterios demográficos
- Comportamiento y estilo de vida
- Fuentes de Información
- Big data
- Fuentes internas
- Principales fuentes externas
- Redes Sociales
- Oferta Comercial y alcances dirigidos a mercado objetivo
Gestión y seguimiento de campañas
Score de Respuesta: Modelización y uso
Informe financiero de seguimiento
Rentabilidad, Charge Offs, Número de cuentas abiertas, NPL, etc.
Análisis Vintage de las acciones comerciales
Cumplimiento del Risk Appetite y Regulaciones
Planes de acción
Caso de Estudio: Análisis de costes y beneficios del Data Science aplicado en banco retail Europeo 2005-2014.

ANÁLISIS DE DATOS

Módulo 5: Gestión avanzada de los datos

Tipología de datos
Datos transaccionales
Unstructured data embebida en documentos de texto
Social Media Data
Fuentes de datos
Revisión del dato
Definición del Target
Horizonte temporal de la variable objetivo
Muestreo
- Muestreo Aleatorio
- Muestreo Estratificado
- Muestreo Rebalanceado
Análisis Exploratorio:
- Histogramas
- Q-Q Plot
- Análisis de momentos
- Box Plot
Tratamiento de los valores Missing
- Imputación
- Borrar
- Mantener
Técnicas avanzadas de detección de Outliers y tratamiento
- Z-Score
- Distancia de Mahalanobis
Estandarización de los Datos
Categorización de variables
- Equal Interval Binning
- Equal Frecuency Binning
- Prueba Ji-Cuadrada
Binary Coding
WOE Coding
- Definición WOE
- Análisis Univariante con variable Target
- Selección de variables
- Tratamiento de Variables continuas
- Tratamiento de Variables Categóricas
- Fisher Score
- Gini
- Information Value
- Pearson Correlation
- Cramer Von Misses
- Optimización de variables continuas
- Optimización de variables categóricas
- Àrboles de Decisión
Ejercicio 7: Análisis Exploratorio en R
Ejercicio 8: Detección y tratamiento de Outliers usando Z-score
Ejercicio 9: Muestreo estratificado y Aleatorio
Ejercicio 10: Análisis del Weight of Evidence en Excel
Ejercicio 11: Análisis univariante en percentiles en R
Ejercicio 12: Análisis univariante óptimo variable continua en Excel
Ejercicio 14: Estimación del KS, Gini e IV de cada variable en Excel
Ejercicio 15: Optimización de variables categóricas en R

MACHINE LEARNING

Módulo 6: Machine Learning

Definición del Machine Learning
Metodología del Machine Learning
- Almacenamiento de la Data
- Abstracción
- Generalización
- Evaluación
Aprendizaje Supervisado y No Supervisado
Tipología de algoritmos de Machine Learning
Pasos para implementar un algoritmo
- Recogida de información
- Análisis Exploratorio
- Entrenamiento del modelo
- Evaluación del Modelo
- Mejoras al modelo
- Machine Learning en riesgo crédito de consumo
Machine Learning en modelos de credit scoring
Principales Herramientas: Microsoft Azure, SAS Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark, Python,etc.

Módulo 7: Clustering y Componentes Principales

Segmentación del Cliente
Tipología de la segmentación
Modelización de la clasificación
Análisis Recency, Frequency Monetary (RFM) en banca retail
Análisis de banca móvil
Clusters Jerárquicos
Dendrograma
Model Based Clustering
Density Based Clustering
Comparativo de Clusters
- Distancia Interclusters
- Distancia Intraclusters
Gráfico de disimilitud
Validación de Clusters
Análisis de Componentes principales (PCA)
Visualización avanzada de PCA
Ejercicio 16: Segmentación RFM de tarjetas de crédito
Ejericicio 17: Segmentación usando clusters en R
Ejercicio 18: Segmentación de Clientes de Banca Móvil usando Componentes principales en Python
Ejercicio 19: Segmentación de Clientes Banca Móvil usando clusters
Ejercicio 20: Visualización de componentes principales y clusters en R

Módulo 8: Algoritmos de Clasificación

Árboles de Decisión
- Modelización
- Ventajas e inconvenientes
- Procesos de Recursión y Particionamiento
- Recursive partitioning tree
- Pruning Decision tree
- Conditional inference tree
- Visualización de árboles
- Medición de la predicción de árboles de decisión
- Modelo CHAID
- Modelo C5.0
K-Nearest Neighbors
- Modelización
- Ventajas e inconvenientes
- Distancia Euclidiana
- Distancia Manhattan
- Selección del valor K
Modelo Probabilístico: Naive Bayes
- Teorema de Bayes
- Estimador de Laplace
- Clasificación con Naive Bayes
- Ventajas e inconvenientes

Ejercicio 21: Árbol de decisición C5.0 vs. Chaid en R
Ejercicio 22: Segmentación de Clientes de banca móvil usando K means Clustering en R
Ejercicio 23: Naive Bayes en R

Módulo 9: Modelos de Regresión

Regresión Logística
- Modelización
- Ventajas e inconvenientes en el riesgo de crédito
- Validación modelo de regresión logística
- Regresión Logística para datos de panel
Regresión Cox
- Cox proportional hazards model
Regresiones Avanzadas
- Regresión Logística Multinomial
- Modelo líneal generalizado GLM
  - Tipología de distribuciones y funciones enlace
- Modelo GLMM
- Inflated Beta Regression
- Regresión Piecewise
- Fractional Regression
- Quantile regression
Ejercicio 24: Regresión Logística método stepwise en R
Ejercicio 25: Regresión Inflated Beta Regression
Ejercicio 26: Regresión Piecewise en Excel y SAS
Ejercicio 27: Cox Regression en R

Módulo 11: Algoritmos Avanzados NN y SVM

Support Vector Machine
- Hiperplano óptimo
- Support Vectors
- Añadir costes
- Ventajas e Inconvenientes
- Visualiización del SVM
- Tuning SVM
- Truco de Kernel
Redes Neuronales (Neural Networks NN)
- Entrenamiento de Perceptron
- Perceptrón Multicapa
- Algoritmo de backpropagation
- Procedimientos de entrenamiento
- Tuning NN
- Visualización de NN
- Ventajas e inconvenientes

Ejercicio 28: Support Vector Machine en R
Ejercicio 29: Support Vector Machine en R
Ejercicio 30: Redes Neuronales: perceptron en R y Python

Módulo 12: Ensemble Learning

Modelos de conjuntos
Bagging
Random Forest
Boosting
Adaboost
Boosting y Bagging para modelos de regresión
Ventajas e inconvenientes

Ejercicio 31: Ensemble models en R
Ejercicio 32: Random Forest en R
Ejercicio 33: Adaboost en R

Módulo 14: Validación del modelos

Verificación p-values en regresiones
R cuadrado, MSE, MAD
Diagnóstico de los residuos
Test de Bondad de Ajuste
- Deviance
- Bayesian Information Criterion (BIC)
- Akaike Information Criterion
Multicolinealidad Multivariante
Validación cruzada
Bootstrapping del error
Matriz de confusión caso binario
Matriz de confusión caso multinomial
Prueba de Estabilidad
Principales test de poder discriminante:
- KS
- Curva ROC
- Curva Lift
- Gini Index
- Cumulative Accuracy Profile
- Distancia de Kullback-Leibler
Intervalos de confianza
Jackknifing con test de poder discriminante
Bootstrapping con test de poder discriminante
Estadístico Kappa
K-Fold Cross Validation
Evaluación del ROI
- Gráficos del Profit/ROI
Ejercicio 34: Test de Bondad de Ajuste Regresión líneal
Ejercicio 35: Test de Bondad de Ajuste Regresión Logística
Ejercicio 36: Validación cruzada en R
Ejercicio 37: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel
Ejercicio 38: Matriz de confusión y Kappa
Ejercicio 39: Jackkinifng en SAS
Ejercicio 40: Bootstrapping de Gini/ROC en R
Ejercicio 41: K-Fold Cross Validation en R
Ejercicio 42: Evaluación del ROI en Excel

APLICACIÓN EN RIESGO CRÉDITO

Módulo 15: Credit Scoring y Behavior Scoring

Definición del Target
Definición del horizonte temporal del modelo predictivo
Componentes Principales para reducir variables
Modelos Econométricos para credit scoring
- Regresión lineal
- Regresión Logística
- Regresión Logística Multinomial
- Regresión Piecewise
- Regresión Logística Panel Data
- Regresión Cox
Interpretación de los coeficientes
Interpretación de los Odds Ratios
Machine Learning para credit scoring
- Árboles de Decisión
- Random Forest
- Redes Neuronales
- Perceptrón Multicapa
- Algoritmos Genéticos
- Redes Bayesianas
- Support Vector Machines
- Ensemble Learning
Clasificación del Scorecard
- Scorecard WOE
- Scorecard Binario
- Scorecard Continuo
Reescalamiento del Scorecard
- Análisis del Factor y Offset
- Scorecard WOE
- Scorecard Binario
Técnicas de Reject Inference
- Cut-Off
- Parcelling
- Fuzzy Augmentation
Credit Scoring de Admisión
- Score de Tarjetas de crédito
- Score de Hipotecas
- Score de consumo
- Score de Automóvil
Behavior Score
- Transaction Scoring
Big Data Scoring
- Social Media Scorring
- Score para millenians
- Score para generación X
- Score para Baby Boomers
Técnicas Avanzadas de punto de corte
EJERCICIOS DE CREDIT SCORING DE ADMISIÓN
Ejercicio 43: Regresión Logística método stepwise en R
Ejercicio 44: Regresión Piecewise en Excel y R
Ejercicio 45: Redes Neuronales: en R
Ejercicio 46: Árboles de decisión en R
Ejercicio 47: Cox Regression en R y SAS
Ejercicio 48: Support vector machines en R
Ejercicio 49: Random Forest en R
Ejercicio 50: Bagging y Boosting en R
Ejercicio 51: Scorecard WOE en Excel y R
Ejercicio 52: Comparativa de Modelos en Excel
Ejercicio 53: Reject Inference Fuzzy Augmentation en SAS
Ejercicio 54: Selección del Punto de Corte en Excel y R
EJERCICIOS DE SCORE DE COMPORTAMIENTO
Ejercicio 55:Behavior Score con regresión logística en R
Ejercicio 55: Behavior Score Regresión con redes neuronales y SVM en R
Ejercicio 56: Behavior Score con ensamble learning en R
Ejercicio 57: Comparativo de modelos

APLICACIÓN EN MARKETING Y CRM

Módulo 16: Modelos de Scoring

Modelización de Herramientas Predictivas
Tipología de herramientas:
- Response Score
- Income Score
- Cross Selling
- Credit Scoring
- Score de Ingresos
- Score de Abandono
- Revenue Score
- Combinación de modelos
Matrices duales
Caso de Estudio 1: Modelo de abandono en banco europeo usando machine learning
Caso de Estudio 2: Modelo predictivo de imágenes para predecir el abandono
MODELO CROSS SELLING
Ejercicio 58: Redes Bayesianas en R
Ejercicio 59: Árboles de decisión en python
MODELO RESPONSE SCORE
Ejercicio 60: Regresión Logística
Ejercicio 61: Ensemble models Response Score en R
CHURN SCORE EN TARJETAS DE CRÉDITO
Ejercicio 62: Regresión Logística Panel Data python
Ejercicio 63: Support vector machines en python
Ejercicio 64: Árboles de decisión C5.0 en python
Ejercicio 65: Random Forest en python
Ejercicio 66: Ensemble models Churn Score en python

Módulo 17: Customer Life Time Value (CLV)

Definición CLV
Estrategias para incrementar el CLV
Customer Loyalty
- Enfoque RFM
- Past Customer Value
- Share Of Wallet
Modelización del CLV
Enfoque Agregado
Enfoque Individual
Componentes del CLV
Drivers del CLV
Modelo de Retención simple
Modelo de Retención General
Modelos Supervivencia
Ejercicio 67: Estimación CLV en Excel
Ejercicio 68: Modelo de Retención simple en SAS
Ejercicio 69: Modelo de Retención General y análisis de supervivencia y Hazard rates en python

APLICACIÓN EN REDES SOCIALES

Módulo 18: Analítica Social en Facebook

Analítica en las Redes Sociales
Definiciones de redes
Gráficos
Sociogramas
Vértices, bordes, nodos, pesos
Principales Métricas en la Analìtica Social
Medidas de centralidad en las redes
Social Network learner
Local Model
Network Model
Probabilistic Relational Neighbor Classifier
Relational Logisitic Regression
Collective Inferencing
Visualización de las Redes Sociales
Taxonomía de las visualizaciones
Visualización y analítica
Analítica Social en Facebook usando R
Analítica Social en Twitter usando R
Analítica Social en Google Analytics usando R
Caso de Estudio 6: Redes para predecir abandono en bancos
Ejercicio 70: Carga de datos y Gráficos en R
Ejercicio 71: Añadir Vértices en los gráficos R
Ejercicio 72: Visualización de Social Networks en R
Ejercicio 73: Añadir Vértices en los gráficos R
Ejercicio 74: Modelización avanzada de redes en Facebook: grado, diametro, densidad, centralidad, trazado de grafos dirigidos por fuerza,etc.

Módulo 19: Análisis de Sentimientos y Text Mining en

Redes Sociales en Twitter

Definición Text Mining
Unstructured Data
Análisis Exploratorio
Treemaps
Modelización predictiva en el Text Mining
- K-Nearest Neighbors
Text Mining en las Redes Sociales
- Keyword Search
- Algortimos de clasificación
- Algoritmos Clustering
Sentimiento en lingüística y Psicología
- Subjetividad
- Facticidad
Lingüística Computacional
- Lexicón y Corpora
- Enfoque basado en reglas
- Enfoque Machine Learning
Análisis de Sentimientos en Twitter
- Análisis y Score de polaridad
- Support Vector Machine
Ejercicio 75: Text Mining de un documento en R
Ejercicio 76: Treemap de Tweets
Ejercicio 77: Análisis de palabras y asociaciones de tweets
Ejercicio 78: Clusters Jerárquicos en R
Ejercicio 79: Score de polaridad en Twitter
Ejercicio 80: Análisis de Sentimientos en Twitter con SVM

APLICACIÓN EN FRAUDE

Módulo 20: Score de Fraude en Admisión

-Variables en el scoring de fraude en admisión

-Horizonte temporal

-Segmentación

-Definición del Target

-Análisis Univariante

-Modelo Logit

-Scorecard de Fraude en Admisión

-Suspicious Score

Ejercicio 81: Scorecard Application Fraud logístico en Excel

Ejercicio 82: Modelo de Credit Scoring usando el Text Mining

Módulo 20: Score de Fraude en Seguimiento

-Tipología de Fraude

-Variables Clave

-Variable Objetivo

-Perfil del Cliente Fraudulento

-Redes Neuronales

-Modelo Logístico

-Árboles de Decisión

-Estimación y calibración de la Probabilidad de Fraude

-Principales inconvenientes en la modelización del fraude

Ejercicio 83: Redes Neuronales y SVM en R

Ejercicio 84: Ensemble Learning en SAS y R

Inteligencia Artificial en Banca de Consumo

​

AGENDA Data Science y Big Data en Banca de Consumo