Data Science y Big Data en Banca de Consumo

OBJETIVO

 

La Ciencia de datos o Data Science es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento. El objetivo del curso es mostrar al participante el proceso de recopilación, organización y análisis de grandes conjuntos de datos, Big Data, para descubrir patrones y desarrollar herramientas predictivas. La banca dispone de información transaccional interna y de información externa incluyendo las redes sociales que puede manipular y comprender en esta disrupción digital.

Se explica como almacenar y procesar Big Data usando Hive de Hadoop y como construir modelos empleando lenguajes de programación R y SAS. 

Se exponen las definiciones, características y métricas sobre la analítica de Datos, analítica Web y analítica social aplicados a la banca.

 

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers. 

 

Se muestran modelos predictivos de tipo econométricos contrastando frente a modelos de machine learning tales como los árboles de decisión, redes neuronales, redes bayesianas, Support Vector Machines y potentes modelos de conjunto. Más adelante se explica, detalladamente, la validación de estos modelos.

Finalmente se explica la aplicación de la ciencia de datos en las siguientes áreas: Riesgo de crédito, Marketing y CRM Analítico, Fraude y Redes Sociales. En riesgo de crédito se abordan metodologías para construir modelos de credit scoring. En Marketing y CRM, se exponen modelos analíticos de cross selling, response score, customer lifetime value, modelos de abandono y segmentación avanzada de Clientes. Se explica como pueden ayudar las Redes Sociales a mejorar el conocimiento del Cliente  a través de la ciencia de datos. En cuanto a Fraude, se explican modelos analíticos para detectar el fraude en la banca.

Se exponen potentes ejercicios y macros tanto en SAS como en R que permiten desarrollar herramientas predictivas y aplicarlas inmediatamente en el trabajo del participante.

 

¿QUIÉNES DEBEN ASISTIR?

 

El Curso esta dirigido a profesionistas de entidades financieras interesados en aplicaciones prácticas de Data Science en Banca así como a los responsables de los departamentos de marketing, crédito, riesgos, fraude, finanzas y recuperaciones. Para la mejor comprensión de los temas es recomendable que el participante tenga conocimientos de estadística.

 

 

PRECIO DEL CURSO LIVE ON LINE (30 Horas Lectivas)

 

Precio: 4.900 €

Horarios:

 

  • Santiago de Chile, Sao Paulo: Lunes a Viernes: 18:00 a 21:00 Hrs.

  • Madrid, Barcelona: Lunes a Viernes: 19:00 a 22:00 Hrs.

  • México, D.F., Lima, Quito, Bogotá, San José: Lunes a Viernes: 19:00 a 22:00 Hrs.

 

El Precio incluye: Presentaciones en formato PDF y ejercicios de Excel, Hive, R y SAS.

 

AGENDA Data Science y Big Data en Banca de Consumo

BIG DATA

Módulo 1: Big Data

 

  • Definición de Big Data

  • Big Data en las entidades financieras

  • Tipología de datos

    • Estructurados

    • Semiestructurados

    • Datos No Estructurados

  • Características del Big Data

    • Volumen

    • Velocidad

    • Variedad

    • Veracidad

    • Valor

  • Tamaño de los Big Data

  • Fuentes de grandes volúmenes

  • Origen de las fuentes de datos

  • Los datos de la web

  • Datos de Texto

  • Datos de sensores

  • Datos de RFID y NFC

  • Datos de operadores de telecos

  • Datos de redes inteligentes

 

Módulo 2: Arquitectura del Big Data

 

  • La arquitectura del Big Data

  • Data Warehouse y Data Mart

  • Bases de datos

  • Hadoop

  • Plataformas de Hadoop

  • Analítica de Big Data

  • Gobierno del Big Data

  • Seguridad y privacidad del Big Data

  • Metadatos del Big Data

  • Arquitectura Big Data Oracle e IBM

 

PROCESAMIENTO Y ALMACENAMIENTO

 

Módulo 3: HADOOP y HIVE

 

  • ¿Que es Hadoop?

  • El ecosistema Hadoop

  • Componentes de Hadoop

  • Map Reduce

  • Desarrollo de aplicaciones Hadoop

  • Programación Hadoop

    • Hive

    • Pig

  • Plataforma de Hadoop

  • Ejercicio 1: Virtual Machine y uso de Hadoop

  • Ejercicio 2: Queries SQL en Hive y uso de HDFS en Hadoop de bases de datos de behavior scoring

  • Ejercicio 3:Cargar datos en tablas

  • Ejercicio 4: Unir y combinar trablas

  • Ejercicio 5: Queries de datos semi-estructurados

  • Ejercicio 6:  Creación de modelo analítico de credit scoring en Hive

DATA SCIENCE EN BANCA

Módulo 4: Banca de Consumo

  • La banca retail en Europa y América

  • Disrupción digital

  • Análisis de perfiles

    • Millenians

    • Generación X

    • Baby Boomers

  • Customer Centric Model

  • Ciclo de vida del Cliente

  • Customer Relationship Management

  • Diseño de Producto

  • Pricing

  • Análisis de los Canales de distribución en la banca 

    • ¿Sucursales físicas? 

    • Call center

    • ATM

    • Online Banking

    • Mobile Banking

    • Adaptación tecnológica de canales emergentes

  • Campañas de marketing

    • Producto 

    • Branding

    • Modelo de la adquisición

    • Campaña piloto

    • ​Cross Selling

    • Deep Selling

    • Up Selling

    • Retención y vinculación de Clientes

    • Outbound e Inbound Marketing en Banca

    • Marketing Call Center

    • Correo directo

    • e-mail. banner ads, e.mail marketing, promociones en web site

    • Campaña de expansión de negocio

    • Publicidad en televisión y radio

    • Google adwords, search

    • Redes sociales: Facebook, Twitter, Linkedin, Pinterest

    • Planificación financiera y objetivos puntuales

  • Customer Analytics

  • Segmentación del Cliente

    • Área Geográfica

    • Criterios demográficos

    • Comportamiento y estilo de vida

    • Fuentes de Información

    • Big data

    • Fuentes internas

    • Principales fuentes externas

    • Redes Sociales

    • Oferta Comercial y alcances dirigidos a mercado objetivo

  • Gestión y seguimiento de campañas

  • Score de Respuesta: Modelización y uso

  • Informe financiero de seguimiento

  • Rentabilidad, Charge Offs, Número de cuentas abiertas, NPL, etc.

  • Análisis Vintage de las acciones comerciales

  • Cumplimiento del Risk Appetite y Regulaciones

  • Planes de acción

  • Caso de Estudio: Análisis de costes y beneficios del Data Science aplicado en banco retail Europeo 2005-2014.

 

ANÁLISIS DE DATOS

 

Módulo 5: Gestión avanzada de los datos

 

  • Tipología de datos

  • Datos transaccionales

  • Unstructured data embebida en documentos de texto

  • Social Media Data

  • Fuentes de datos

  • Revisión del dato

  • Definición del Target

  • Horizonte temporal de la variable objetivo

  • Muestreo

    • Muestreo Aleatorio

    • Muestreo Estratificado

    • Muestreo Rebalanceado

  • Análisis Exploratorio:

    • Histogramas

    • Q-Q Plot

    • Análisis de momentos

    • Box Plot

  • Tratamiento de los valores Missing

    • Imputación

    • Borrar

    • Mantener

  • Técnicas avanzadas de detección de Outliers y tratamiento

    • Z-Score

    • Distancia de Mahalanobis

  • Estandarización de los Datos

  • Categorización de variables

    • Equal Interval Binning

    • Equal Frecuency Binning

    • Prueba Ji-Cuadrada

  • Binary Coding

  • WOE Coding

    • Definición WOE

    • Análisis Univariante con variable Target

    • Selección de variables

    • Tratamiento de Variables continuas

    • Tratamiento de Variables Categóricas

    • Fisher Score

    • Gini

    • Information Value

    • Pearson Correlation

    • Cramer Von Misses

    • Optimización de variables continuas

    • Optimización de variables categóricas

    • Àrboles de Decisión

  • ​Ejercicio 7: Análisis Exploratorio en SAS

  • Ejercicio 8: Detección y tratamiento de Outliers usando Z-score

  • Ejercicio 9: Muestreo estratificado y Aleatorio

  • Ejercicio 10: Análisis del Weight of Evidence en Excel

  • Ejercicio 11: Análisis univariante en percentiles en SAS

  • Ejercicio 12: Análisis univariante óptimo variable continua en Excel

  • Ejercicio 14: Estimación del KS, Gini e IV de cada variable en Excel

  • Ejercicio 15: Optimización de variables categóricas en SAS

MACHINE LEARNING

Módulo 6: Machine Learning

 

  • Definición del Machine Learning 

  • Metodología del Machine Learning

    • Almacenamiento de la Data

    • Abstracción

    • Generalización

    • Evaluación

  • Aprendizaje Supervisado y No Supervisado

  • Tipología de algoritmos de Machine Learning

  • Pasos para implementar un algoritmo

    • Recogida de información

    • Análisis Exploratorio

    • Entrenamiento del modelo

    • Evaluación del Modelo

    • Mejoras al modelo

    • Machine Learning en riesgo crédito de consumo

  • Machine Learning en modelos de credit scoring

  • Principales Herramientas: Microsoft Azure, SAS  Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark, Python,etc.

 

Módulo 7: Clustering y Componentes Principales

 

  • Segmentación del Cliente

  • Tipología de la segmentación

  • Modelización de la clasificación

  • Análisis Recency, Frequency Monetary (RFM) en banca retail

  • Análisis de banca móvil

  • Clusters Jerárquicos

  • Dendrograma

  • Model Based Clustering

  • Density Based Clustering

  • Comparativo de Clusters

    • Distancia Interclusters

    • Distancia Intraclusters

  • Gráfico de disimilitud

  • Validación de Clusters

  • Análisis de Componentes principales (PCA)

  • Visualización avanzada de PCA

  • Ejercicio 16: Segmentación RFM de tarjetas de crédito

  • Ejericicio 17: Segmentación usando clusters en SPSS y SAS 

  • Ejercicio 18: Segmentación de Clientes de Banca Móvil usando Componentes principales en SAS

  • Ejercicio 19: Segmentación de Clientes Banca Móvil usando clusters

  • Ejercicio 20: Visualización de componentes principales y clusters en R

Módulo 8: Algoritmos de Clasificación 

 

  • Árboles de Decisión

    • Modelización

    • Ventajas e inconvenientes

    • Procesos de Recursión y Particionamiento

    • Recursive partitioning tree

    • Pruning Decision tree

    • Conditional inference tree

    • Visualización de árboles

    • Medición de la predicción de árboles de decisión

    • Modelo CHAID

    • Modelo C5.0

  • K-Nearest Neighbors

    • Modelización

    • Ventajas e inconvenientes

    • Distancia Euclidiana

    • Distancia Manhattan

    • Selección del valor K

  • Modelo Probabilístico: Naive  Bayes

    • Teorema de Bayes

    • Estimador de Laplace

    • Clasificación con Naive Bayes

    • Ventajas e inconvenientes

  • Ejercicio 21: Árbol de decisición C5.0 vs. Chaid en SPSS

  • Ejercicio 22: Segmentación de Clientes de banca móvil usando K means Clustering en R y SAS

  • Ejercicio 23: Naive Bayes en R

Módulo 9: Modelos de Regresión

  • Regresión Logística

    • Modelización

    • Ventajas e inconvenientes en el riesgo de crédito

    • Validación modelo de regresión logística

    • Regresión Logística para datos de panel

  • Regresión Cox

    • Cox proportional hazards model

  • Regresiones Avanzadas

    • Regresión Logística Multinomial

    • Modelo líneal generalizado GLM

      • Tipología de distribuciones y funciones enlace

    • Modelo GLMM

    • Inflated Beta Regression

    • Regresión Piecewise

    • Fractional Regression

    • Quantile regression

  • Ejercicio 24: Regresión Logística método stepwise en SAS

  • Ejercicio 25: Regresión Inflated Beta Regression

  • Ejercicio 26: Regresión Piecewise en Excel y SAS

  • Ejercicio 27: Cox Regression en R y SAS

 

Módulo 11: Algoritmos Avanzados NN y SVM

 

  • Support Vector Machine

    • Hiperplano óptimo

    • Support Vectors

    • Añadir costes

    • Ventajas e Inconvenientes

    • Visualiización del SVM

    • Tuning SVM

    • Truco de Kernel

  • Redes Neuronales (Neural Networks NN)

    • Entrenamiento de Perceptron

    • Perceptrón Multicapa

    • Algoritmo de backpropagation

    • Procedimientos de entrenamiento

    • Tuning NN 

    • Visualización de NN

    • Ventajas e inconvenientes

  • Ejercicio 28: Support Vector Machine en SPSS y R

  • Ejercicio 29: Support Vector Machine en SAS

  • Ejercicio 30: Redes Neuronales: perceptron en SAS y SPSS

Módulo 12: Ensemble Learning

 

  • Modelos de conjuntos

  • Bagging

  • Random Forest

  • Boosting

  • Adaboost

  • Boosting y Bagging para modelos de regresión

  • Ventajas e inconvenientes

  • Ejercicio 31: Ensemble models en SAS y SPSS

  • Ejercicio 32: Random Forest en SAS

  • Ejercicio 33: Adaboost en R

Módulo 14: Validación del modelos

  • Verificación p-values en regresiones

  • R cuadrado, MSE, MAD

  • Diagnóstico de los residuos

  • Test de Bondad de Ajuste

    • Deviance

    • Bayesian Information Criterion (BIC)

    • Akaike Information Criterion 

  • Multicolinealidad Multivariante

  • Validación cruzada

  • Bootstrapping del error

  • Matriz de confusión caso binario

  • Matriz de confusión caso multinomial

  • Prueba de Estabilidad

  • Principales test de poder discriminante:

    • KS

    • Curva ROC

    • Curva Lift

    • Gini Index

    • Cumulative Accuracy Profile

    • Distancia de Kullback-Leibler

  • Intervalos de confianza

  • Jackknifing con test de poder discriminante

  • Bootstrapping con test de poder discriminante

  • Estadístico Kappa

  • K-Fold Cross Validation

  • Evaluación del ROI

    • Gráficos del Profit/ROI

  • Ejercicio 34: Test de Bondad de Ajuste Regresión líneal

  • Ejercicio 35: Test de Bondad de Ajuste Regresión Logística

  • Ejercicio 36: Validación cruzada en SAS

  • Ejercicio 37: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel

  • Ejercicio 38: Matriz de confusión y Kappa

  • Ejercicio 39: Jackkinifng en SAS

  • Ejercicio 40: Bootstrapping de Gini/ROC en SAS

  • Ejercicio 41: K-Fold Cross Validation en R

  • Ejercicio 42: Evaluación del ROI en SPSS

APLICACIÓN EN RIESGO CRÉDITO

Módulo 15: Credit Scoring y Behavior Scoring

  • Definición del Target 

  • Definición del horizonte temporal del modelo predictivo

  • Componentes Principales para reducir variables

  • Modelos Econométricos para credit scoring

    • Regresión lineal

    • Regresión Logística

    • Regresión Logística Multinomial

    • Regresión Piecewise

    • Regresión Logística Panel Data

    • Regresión Cox

  • Interpretación de los coeficientes

  • Interpretación de los Odds Ratios

  • Machine Learning para credit scoring

    • Árboles de Decisión

    • Random Forest

    • Redes Neuronales

    • Perceptrón Multicapa

    • Algoritmos Genéticos

    • Redes Bayesianas

    • Support Vector Machines

    • Ensemble Learning

  • Clasificación del Scorecard

    • Scorecard WOE

    • Scorecard Binario

    • Scorecard Continuo

  • Reescalamiento del Scorecard

    • Análisis del Factor y Offset

    • Scorecard WOE

    • Scorecard Binario

  • Técnicas de Reject Inference

    • Cut-Off

    • Parcelling

    • Fuzzy Augmentation

  • Credit Scoring de Admisión

    • Score de Tarjetas de crédito

    • Score de Hipotecas

    • Score de consumo

    • Score de Automóvil

  • Behavior Score

    • Transaction Scoring

  • Big Data Scoring

    • Social Media Scorring

    • Score para millenians

    • Score para generación X

    • Score para Baby Boomers

  • Técnicas Avanzadas de punto de corte 

  • EJERCICIOS DE CREDIT SCORING DE ADMISIÓN

  • Ejercicio 43: Regresión Logística método stepwise en SAS

  • Ejercicio 44: Regresión Piecewise en Excel y SAS

  • Ejercicio 45: Redes Neuronales: en R

  • Ejercicio 46: Árboles de decisión en R

  • Ejercicio 47: Cox Regression en R y SAS

  • Ejercicio 48: Support vector machines en R

  • Ejercicio 49: Random Forest en R

  • Ejercicio 50: Bagging y Boosting en R

  • Ejercicio 51: Scorecard WOE en Excel y SAS

  • Ejercicio 52: Comparativa de  Modelos en Excel 

  • Ejercicio 53: Reject Inference Fuzzy Augmentation en SAS

  • Ejercicio 54: Selección del Punto de Corte en Excel y SAS

  • EJERCICIOS DE SCORE DE COMPORTAMIENTO

  • Ejercicio 55:Behavior Score con regresión logística en SAS

  • Ejercicio 55: Behavior Score Regresión con redes neuronales y SVM en R

  • Ejercicio 56: Behavior Score con ensamble learning en SAS

  • Ejercicio 57: Comparativo de modelos

APLICACIÓN EN MARKETING Y CRM

Módulo 16: Modelos de Scoring

 

  • Modelización de Herramientas Predictivas

  • Tipología de herramientas:

    • Response Score

    • Income Score

    • Cross Selling

    • Credit Scoring 

    • Score de Ingresos

    • Score de Abandono

    • Revenue Score

    • ​Combinación de modelos

  • Matrices duales

  • Caso de Estudio 1: Modelo de abandono en banco europeo usando machine learning

  • Caso de Estudio 2: Modelo predictivo de imágenes para predecir el abandono

  • MODELO CROSS SELLING

  • Ejercicio 58: Redes Bayesianas en R

  • Ejercicio 59: Árboles de decisión en SAS

  • MODELO RESPONSE SCORE

  • Ejercicio 60: Regresión Logística

  • Ejercicio 61: Ensemble models Response Score en SAS 

  • CHURN SCORE EN TARJETAS DE CRÉDITO

  • Ejercicio 62: Regresión Logística Panel Data SPSS

  • Ejercicio 63: Support vector machines en SPSS

  • Ejercicio 64: Árboles de decisión C5.0 en SPSS

  • Ejercicio 65: Random Forest en SPSS

  • ​Ejercicio 66: Ensemble models Churn Score en SPSS

Módulo 17: Customer Life Time Value (CLV)

 

  • Definición CLV

  • Estrategias para incrementar el CLV

  • Customer Loyalty

    • Enfoque RFM

    • Past Customer Value

    • Share Of Wallet

  • Modelización del CLV

  • Enfoque Agregado

  • Enfoque Individual

  • Componentes del CLV

  • Drivers del CLV

  • Modelo de Retención simple

  • Modelo de Retención General

  • Modelos Supervivencia

  • Ejercicio 67: Estimación CLV en Excel

  • Ejercicio 68: Modelo de Retención simple en SAS

  • Ejercicio 69: Modelo de Retención General  y análisis de supervivencia y Hazard rates en SAS

APLICACIÓN EN REDES SOCIALES

Módulo 18: Analítica Social en Facebook

 

 

  • Analítica en las Redes Sociales

  • Definiciones de redes

  • Gráficos

  • Sociogramas

  • Vértices, bordes, nodos, pesos

  • Principales Métricas en la Analìtica Social

  • Medidas de centralidad en las redes

  • Social Network learner

  • Local Model

  • Network Model

  • Probabilistic Relational Neighbor Classifier

  • Relational Logisitic Regression

  • Collective Inferencing

  • Visualización de las Redes Sociales

  • Taxonomía de las visualizaciones

  • Visualización y analítica

  • Analítica Social en Facebook usando R

  • Analítica Social en Twitter usando R

  • Analítica Social en Google Analytics usando R

  • Caso de Estudio 6: Redes para predecir abandono en bancos

  • Ejercicio 70: Carga de datos y Gráficos en R

  • Ejercicio 71: Añadir Vértices en los gráficos R

  • Ejercicio 72: Visualización de Social Networks en R

  • Ejercicio 73: Añadir Vértices en los gráficos R

  • Ejercicio 74: Modelización avanzada de redes en Facebook: grado, diametro, densidad, centralidad, trazado de grafos dirigidos por fuerza,etc.

Módulo 19: Análisis de Sentimientos y Text Mining en

Redes Sociales en Twitter

 

  • Definición Text Mining

  • Unstructured Data

  • Análisis Exploratorio

  • Treemaps

  • Modelización predictiva en el Text Mining

    • K-Nearest Neighbors

  • Text Mining en las Redes Sociales

    • Keyword Search

    • Algortimos de clasificación

    • Algoritmos Clustering

  • Sentimiento en lingüística y Psicología

    • Subjetividad

    • Facticidad

  • Lingüística Computacional

    • Lexicón y Corpora

    • Enfoque basado en reglas

    • Enfoque Machine Learning 

  • Análisis de Sentimientos en Twitter

    • Análisis  y Score de polaridad

    • Support Vector Machine

  • Ejercicio 75: Text Mining de un documento en R

  • Ejercicio 76: Treemap de Tweets

  • Ejercicio 77: Análisis de palabras y asociaciones de tweets  

  • Ejercicio 78: Clusters Jerárquicos en SAS

  • Ejercicio 79: Score de polaridad en Twitter

  • Ejercicio 80: Análisis de Sentimientos en Twitter con SVM

 

APLICACIÓN EN FRAUDE

Módulo 20: Score de Fraude en Admisión

 

-Variables en el scoring de fraude en admisión

-Horizonte temporal

-Segmentación

-Definición del Target

-Análisis Univariante

-Modelo Logit

-Scorecard de Fraude en Admisión

-Suspicious Score

Ejercicio 81: Scorecard Application Fraud logístico en Excel

Ejercicio 82: Modelo de Credit Scoring usando el Text Mining

 

Módulo 20: Score de Fraude en Seguimiento

 

-Tipología de Fraude

-Variables Clave

-Variable Objetivo

-Perfil del Cliente Fraudulento

-Redes Neuronales

-Modelo Logístico

-Árboles de Decisión

-Estimación y calibración de la Probabilidad de Fraude

-Principales inconvenientes en la modelización del fraude

Ejercicio 83: Redes Neuronales y SVM en R

Ejercicio 84: Ensemble Learning en SAS y R