Credit Scoring Machine Learning en Python y R

placa-circuito-azul-placa-circuito-palabra-circuito-ella.jpg

Credit Scoring, Inteligencia Artificial y Validación en Python y R Nivel Intermedio

OBJETIVO

El objetivo del curso es enseñar al participante a desarrollar y gestionar modernas y potentes herramientas de credit scoring, calibrar la probabilidad de default y validar los modelos. Además, el participante conocerá herramientas de inteligencia artificial para la automatización de la modelización y validación del credit scoring.

Se explica el impacto del COVID-19 en los modelos de riesgo crédito y los nuevos retos en materia de modelización.

El participante aprenderá a desarrollar modelos de credit scoring, tradicionales y avanzados, en la etapa de admisión y seguimiento del crédito. Es decir, se explica la construcción del credit y behavior scoring empleando volúmenes de información enormes.

Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers.

Se exponen las principales técnicas del machine learning, aprendizaje supervisado, no supervisado y de refuerzo, aplicados a la creación de herramientas de credit scoring.

Se exponen metodologías tradicionales como la regresión logística y otras, innovadoras, de machine learning, tales como: árboles de decisión, naive bayes, KKN, Regresión logística LASSO, random forest, redes neuronales, redes bayesianas, Support Vector Machines, gradient boosting tree, etc .

Se explica el algoritmo avanzado deep learning para desarrollar potentes modelos de credit scoring que los bancos pueden implementar como herramientas desafiantes o herramientas útiles en el proceso de admisión.

Se expone el uso del text mining para tratar variables que incluyan una cantidad importante de texto y sobre todo relacionarlas con la morosidad.

Se entregan modelos de credit scoring, con distintas metodologías en diversos lenguajes de programación como lo son: R, Python, Jupyterlab, Tensorflow y SAS.

Se enseñan metodologías avanzadas para calibrar el parámetro de riesgo PD. Se aborda la calibración por ajuste a la tendencia central, la filosofía del rating PD PIT y PD TTC, la calibración de modelos de machine learning para que produzcan probabilidades de default.

Se indican las mejores prácticas de validación tradicional y automatizada de modelos de credit scoring de las entidades financieras.

¿QUIÉNES DEBEN ASISTIR?

El Curso está dirigido a profesionistas de entidades financieras interesados en el desarrollar potentes modelos de credit scoring y calibrar la salida de los mismos, así como a responsables de modelos en los departamentos de riesgo crédito y ciencia de datos.

Para la mejor comprensión de los temas es necesario que el participante tenga conocimientos de estadística. Y es un plus si tiene conocimientos de Machine Learning.

fondo-azul-degradado-lujo-abstracto-azul-oscuro-liso-banner-estudio-vineta-negra.jpg

Horarios:

Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h

España, Portugal: L a V 19-22 h

Ciudad de México, Quito, Bogotá, San José: L a V 19-22 h

Precio: 4.900 €

Nivel: Intermedio

Duración: 30 h

Material:

Presentaciones PDF, Ejercicios Excel, R ,SAS, Python, Jupyterlab y Tensorflow

AGENDA

Credit Scoring: Automatización de la Modelización con IA

Anchor 10

Módulo 0: Impacto del COVID-19 en el Riesgo Crédito

Pandemia Covid-19 en el mundo
Casos de contagio, muertes y recuperaciones
Estrategias de mitigación de la propagación en el mundo
Análisis matemático de las curvas de contagio por países
- Modelo SIR: S (población susceptible), I (población infectada) y R (población recuperada)
Estrategias de la OMS para paliar emergencia sanitaria
Gastos de salud respecto al PIB esperados
Impacto financiero y desplome de las bolsas
Impacto de la caída del precio del petróleo
Impacto en la economía mundial
- Posible Recesión Mundial
- Expectativas del PIB OCDE
- Incremento de tasa de paro por países
- Planes de emergencia
- Acuerdos del Video-Call G-20
- Sectores económicos más desfavorecidos
Impacto en la banca
- Impacto en el capital: Buffers de capital
- Impacto en las provisiones del IFRS 9
- Crecimiento de la morosidad
Impacto en el Riesgo de Crédito
- Impacto en el ciclo de crédito
- Impacto en la admisión y seguimiento
- Impacto en la morosidad
- Impacto de las moratorias en el riesgo crédito
- Impacto sectorial del riesgo de crédito
- Impacto en el credit scoring
Impacto en el riesgo de liquidez
Análisis Coste-Beneficio de las cuarentenas
- Gastos y ahorros en materia de salud

Módulo 1: Big Data y Disrupción digital

Definición de Big Data
Big Data en las entidades financieras y fintech
Big data en las Bigtech
Tipología de datos
- Estructurados
- Semiestructurados
- Datos No Estructurados
Big data: Volumen, Velocidad, Variedad, Veracidad y Valor
Tamaño de los Big Data
Fuentes de grandes volúmenes de datos
- Data transaccional
- Data de redes sociales
- Data de buró de crédito
- Origen de las fuentes de datos
- Los datos de la web
- Datos de Texto
- Datos de sensores
- Datos de RFID y NFC
- Datos de operadores de telecos
- Datos de redes inteligentes
Digitalización bancaria
Inclusión financiera
Regulación en Europa, EEUU y Latinoamérica

Módulo 2: Credit Scoring

Credit Scoring para Banca
Credit Scoring con big data
Diseño y Construcción de Modelos de Credit Scoring
Ventajas e Inconvenientes
Modelos para afrontar nuevas crisis financierias
Machine Learning para desarrollar y validar credit scoring
Importancia del Bureau Score
Gestión de los Credit Scorecards
Estimación de la Probabilidad de Default PD

Módulo 3: Machine Learning

Definición del Machine Learning
Metodología del Machine Learning
- Almacenamiento de la Data
- Abstracción
- Generalización
- Evaluación
Aprendizaje Supervisado
Aprendizaje No Supervisado
Aprendizaje por Refuerzo
Deep Learning
Tipología de algoritmos de Machine Learning
Pasos para implementar un algoritmo
- Recogida de información
- Análisis Exploratorio
- Entrenamiento del modelo
- Evaluación del Modelo
- Mejoras al modelo
- Machine Learning en riesgo crédito de consumo
Machine Learning en modelos de credit scoring
Análisis de principales herramientas: R, Python, Microsoft Azure, SAS Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark,,etc.

MODELIZACIÓN

Módulo 4: Análisis Exploratorio

Tipología de datos
Datos transaccionales
Unstructured data embebida en documentos de texto
Social Media Data
Fuentes de datos
Revisión del dato
Definición del Target
Horizonte temporal de la variable objetivo
Muestreo
- Muestreo Aleatorio
- Muestreo Estratificado
- Muestreo Rebalanceado
Análisis Exploratorio:
- Histogramas
- Q-Q Plot
- Análisis de momentos
- Box Plot
Tratamiento de los valores Missing
- Modelo Multivariante de Imputación
Técnicas avanzadas de detección de Outliers y tratamiento
- Técnica univariante: winsorized y trimming
- Técnica Multivariante: Distancia de Mahalanobis

Módulo 5: Análisis Univariante

Estandarización de los Datos
Categorización de variables
- Equal Interval Binning
- Equal Frecuency Binning
- Prueba Ji-Cuadrada
Binary Coding
WOE Coding
- Definición WOE
- Análisis Univariante con variable Target
- Selección de variables
- Tratamiento de Variables continuas
- Tratamiento de Variables Categóricas
- Gini
- Information Value
- Optimización de variables continuas
- Optimización de variables categóricas
Ejercicio 1: Análisis Exploratorio en R
Ejercicio 2: Detección y tratamiento de Outliers Avanzado
Ejercicio 3: Muestreo estratificado y Aleatorio en R
Ejercicio 4: Modelo multivariante de impuación
Ejercicio 5: Análisis univariante en percentiles en R
Ejercicio 6: Análisis univariante óptimo variable continua en Excel
Ejercicio 7: Estimación del KS, Gini e IV de cada variable en Excel
Ejercicio 8: Análisis Word Cloud de variables en R

Módulo 6: Modelo predictivo univariante

usando Text Mining

Definición Text Mining
Modelo para variables con contenido descriptivo
Unstructured Data
Análisis Exploratorio
Treemaps
Modelización predictiva en el Text Mining
- K-Nearest Neighbors
Text Mining Predictivo
- Keyword Search
- Algortimos de clasificación
- Algoritmos Clustering
Sentimiento en lingüística y Psicología
- Subjetividad
- Facticidad
Lingüística Computacional
- Lexicón y Corpora
- Enfoque basado en reglas
- Enfoque Machine Learning
Análisis de Sentimientos en Twitter
- Análisis y Score de polaridad
- Support Vector Machine
Ejercicio 9: Análisis Word Cloud de variables en R
Ejercicio 10: Text Mining aplicado a la data no estructurada
Ejercicio 11: Score de polaridad
Ejercicio 12: Análisis de Sentimientos usando SVM para detectar defaults

Aprendizaje No Supervisado

Módulo 7: Modelos no supervisados

Clusters Jerárquicos
K-Means
Algoritmo estándar
Distancia Euclidiana
Análisis de Componentes principales (PCA)
Visualización avanzada de PCA
Eigenvectores e Eigenvalores
Ejercicio 14: Componentes principales en R y SAS
Ejercicio 15: Segmentación de la data con K-Means R

Aprendizaje Supervisado

Módulo 8: Regresión Logística y Regresión LASSO

Modelos Econométricos
- Regresión Logit
- Regresión probit
- Regresión Piecewise
- Modelos de supervivencia
Modelos de Machine Learning
- Regresión Lasso
- Regresión Ridge
Riesgo de Modelo en la regresión logística
Ejercicio 16: Credit Scoring Regresión Logística en SAS y R
Ejercicio 17: Credit Scoring Regresión Logística Lasso en R
Ejercicio 18: Riesgo de Modelo usando Intervalos de confianza de coeficientes de regresión logística

Módulo 9: Árboles, KNN y Naive Bayes

Árboles de Decisión
- Modelización
- Ventajas e inconvenientes
- Procesos de Recursión y Particionamiento
- Recursive partitioning tree
- Pruning Decision tree
- Conditional inference tree
- Visualización de árboles
- Medición de la predicción de árboles de decisión
- Modelo CHAID
- Modelo C5.0
K-Nearest Neighbors KNN
- Modelización
- Ventajas e inconvenientes
- Distancia Euclidiana
- Distancia Manhattan
- Selección del valor K
Modelo Probabilístico: Naive Bayes
- Bayes Ingenuo
- Teorema de Bayes
- Estimador de Laplace
- Clasificación con Naive Bayes
- Ventajas e inconvenientes

Ejercicio 19: Credit Scoring Árbol de decisión en SAS y R
Ejercicio 20: Credit Scoring KNN en R y SAS
Ejercicio 21: Credit Scoring Naive Bayes en R

Módulo 10: Support Vector Machine SVM

SVM con variables dummy
SVM
Hiperplano óptimo
Support Vectors
Añadir costes
Ventajas e Inconvenientes
Visualiización del SVM
Tuning SVM
Truco de Kernel
Ejercicio 22: Credit Scoring Support Vector Machine en R data 1

Ejercicio 23: Credit Scoring upport Vector Machine en Python data 2

Módulo 11: Redes Neuronales (Neural Networks NN)

Neurona artifical
Entrenamiento de Perceptron
Perceptrón
Algoritmo de backpropagation
Procedimientos de entrenamiento
Tuning NN
Visualización de NN
Ventajas e inconvenientes
Ejercicio 24: Credit Scoring Redes Neuronales: perceptron multicapas en R data 1
Ejercicio 25: Credit Scoring Redes Neuronales en Python data 2

Módulo 12: Ensemble Learning

Modelos de conjuntos
Bagging
Bagging trees
Random Forest
Boosting
Adaboost
Gradient Boosting Trees
Ventajas e inconvenientes

Ejercicio 26: Credit Scoring Boosting en R
Ejercicio 27: Credit Scoring Bagging en R
Ejercicio 28: Credit Scoring Random Forest, R y Python, data 1 y 2
Ejercicio 29: Credit Scoring Gradient Boosting Trees

Módulo 14: Deep Learning

Definición y concepto del deep learning
¿Porque ahora el uso del deep learning?
Arquitecturas de redes neuronales
Función de activación
- Sigmoidal
- Rectified linear unit, Relu
- Hipertangente
- Softmax
Feedforward network
Perceptrón Multicapa
Uso de Tensorflow
Uso de Tensorboard
R deep Learning
Python deep Learning
Redes neuronales convolucionales
Uso del deep learning en la clasificación de imágenes
Función de costes
Optimización con Gradiente descendiente
Uso del deep learning para el credit scoring
- ¿Cuantas capas ocultas?
- ¿Cuantas neuronas, 100, 1000?
- ¿Cuantas épocas y tamñao del batch size?
- ¿Cual es la mejor función de activación?
Software Deep Learning: Caffe, H20, Keras, Microsoft, Matlab, etc.
Software de implementación: Nvidia y Cuda
Harware, CPU, GPU y entornos cloud
Ventajas e inconvenientes del deep learning
Feedforward neural network
Perceptrón Multicapa
Redes neuronales convolucionales
Uso del deep learning en la clasificación de imágenes
Redes neuronales recurrentes
Series temporales
Long Short Term Memory
Ejercicio 30: Credit Scoring usando Deep Learning feedforward neural network
Ejercicio 31: Credit Scoring usando Deep Learning redes neuronales convolucionales

Módulo 15: Riesgo de Modelo en el Scorecard

Asignación de puntuación
Clasificación del Scorecard
- Scorecard WOE
- Scorecard Binario
- Scorecard Continuo
Reescalamiento del Scorecard
- Análisis del Factor y Offset
- Scorecard WOE
- Scorecard Binario
Técnicas de Reject Inf erence
- Cut-Off
- Parcelling
- Fuzzy Augmentation
Técnicas Avanzadas de punto de corte
- Optimización del punto de corte usando curvas ROC
Reinforcement Learning
- Markov decisions processes
Riesgo de Modelo por decisión de punto de corte
Riesgo de Modelo por ausencia de datos
Riesgo de Modelo por no actualizar o recalibrar
Ejercicio 32: Construcción de Tarjeta de Puntuación en Excel
Ejercicio 33: Estimación óptima punto de corte en Excel y riesgo de modelo por selección punto de corte
Ejercicio 34: Matriz de confusión para verificar Error Tipo 1 y Tipo 2 en Excel con y sin variables
Ejercicio 35: Riesgo de modelo en credit scoring por no recalibrar a tiempo

Módulo 16: Modelos de Credit Scoring por producto

Credit Scoring de Admisión
- Score de Tarjetas de crédito
- Score de Hipotecas
- Score de consumo
- Score de Automóvil
Behavior Score (BS)
- Horizonte temporal
- Información de datos de panel
- Regresión de datos de panel
- Regresión Cox
- Behavior Score con variables macroeconómicas
- Matrices de transición
- Behavior Score con matrices de transición
- Transaction Score
BEHAVIOR SCORE EN TARJETAS DE CRÉDITO
Ejercicio 36: Behavior Score Regresión Logística en SAS data 1
Ejercicio 37: Behavior Score Regresión Logística en Python data 2
Ejercicio 38: Behavior Score Support Vector Machines en python
Ejercicio 39: Behavior Score Random Forest en python
Ejercicio 40: Behavior Score Gradient Boosting Trees en python
Ejercicio 41: Behavior Score Deep Learning en python

Módulo 17: Validación de modelos tradicionales y de Machine Learning

Validación Out of Sample y Out of time
Verificación p-values en regresiones
R cuadrado, MSE, MAD
Diagnóstico de los residuos
Test de Bondad de Ajuste
- Deviance
- Bayesian Information Criterion (BIC)
- Akaike Information Criterion
Multicolinealidad Multivariante
Validación cruzada
Bootstrapping del error
Matriz de confusión caso binario
Matriz de confusión caso multinomial
Principales test de poder discriminante:
- KS
- Curva ROC
- Curva Lift
- Gini Index
- Cumulative Accuracy Profile
- Distancia de Kullback-Leibler
- Pietra Index
- 1-Ph
- Entropía condicional
- Valor de Información
- Brier Score
- Divergencia
- Hosmer Lemeshow
Intervalos de confianza
Jackknifing con test de poder discriminante
Bootstrapping con test de poder discriminante
Estadístico Kappa
K-Fold Cross Validation
Análisis Semafórico
Ejercicio 42: Test de Bondad de Ajuste Regresión Logística
Ejercicio 43: Validación cruzada en SAS
Ejercicio 44: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel
Ejercicio 45: Bootstrapping de parámetros SAS
Ejercicio 46: Jackkinifng en SAS
Ejercicio 47: Bootstrapping de Gini/ROC en SAS
Ejercicio 48: Estimación Kappa
Ejercicio 49: K-Fold Cross Validation en R
Ejercicio 50: Validación semafórica out of time (horizonte 6 años) de modelos Logístico y de Machine Learning

Módulo 18: Pruebas de estabilidad

Índice de estabilidad en modelo
Índice de estabilidad en factores
Test Xi-cuadrada
Test K-S
Ejercicio 51: Pruebas de estabilidad de modelos y de factores

CALIBRACIÓN DE MODELOS DE PD

Módulo 19: Calibración de la Probabilidad de Default PD

Estimación de la PD
Modelos econométricos
Modelos de Machine Learning
Requerimiento de datos
Risk drivers y criterio del credit scoring
Filosofía del rating
Tratamiento de los Pools
Calibración de la PD
Definición de Default
Long run average for PD
Defaults técnicos y filtros técnicos del default
Requerimiento de datos
Cálculo de tasa de default a un año
Cálculo de Tasa de default a largo plazo
Riesgo de Modelo de la PD
- Margen de Conservadurismo
Técnicas de calibración
Estimación Anchor Point
Mapping de Score a PD
Ajuste al Ciclo Económico de la PD
Filosofía del Rating
- Modelos PD Trough The Cycle (PD TTC)
- Modelos PD Point in Time PD (PD PIT )
Calibración Scaled PD
Calibración Scaled Likelihood ratio
Suavizamiento de las curvas de PD
Quasi moment matching
Calibración de PD de modelos de Machine y Deep Learning
Ejercicio 52: Calibración de la PD por ajuste a la tendencia central
Ejercicio 53: Calibración de PD Anchor point
Ejercicio 54: Calibración de PD PIT
Ejercicio 55: Calibración de PD en modelos de Machine Learning
Ejercicio 56: Modelización del Margen de Conservadurismo PD
Ejercicio 57: Calibración PD TTC

VALIDACIÓN DE MODELOS DE PD

Módulo 20: Backtesting PD

Definición del Backtesting PD
Validación de Calibración de PD
- Hosmer Lameshow test
- Normal test
- Binomial Test
- Spiegelhalter test
- Redelmeier Test
- Traffic Light Approach
Análisis Semafórico y Cuadro de mando de la PD
PD Stability Test
Forecasting PD vs PD Real en el tiempo
Validación con simulación de Monte Carlo
¿Cuando recalibrar o reestimar un modelo de credit scoring?
Re-development
Re-estimation
Riesgo de Modelo en la PD
Machine Learning para validar los modelos de PD
Ejercicio 58: Backtesting de PD en Excel
Ejercicio 59: Forecasting PD y PD real en Excel
Ejercicio 60: Validación usando Simulación de Monte Carlo en Python

AUTOMATIZACIÓN DE LA MODELIZACIÓN CON IA

Módulo 21: Automatización de la Modelización

¿ Que es la automatización de la modelización?
Que se automatiza
Automatización de los procesos de machine learning
Optimizadores y evaluadores
Componentes del Workflow de la automatización de la modelización
- Resumen
- Procesado
- Feature engineering
- Generación del modelo
- Evaluación
Optimización de hiperparámetros
Reconstrucción o recalibración del credit scoring
Modelización del Credit Scoring
- Principales hitos
- Evaluación y optimización
- Posibles Issues
Modelización de la calibración de la PD
- Evaluación y optimización
- Backtesting
- Poder Discriminante
- Pruebas de Estabilidad
Evaluación global de la automatización de la modelización
Implementación de la automatización de la modelización en banca
Requerimientos tecnológicos
Herramientas disponibles
Beneficios y posible estimación del ROI
Principales Issues
Riesgo de Modelo
Ejercicio 61: Automatización de la modelización y optimización y validación de hiperparametría del credit scoring
Ejercicio 62: Automatización de la modelización y validación de una herramienta de credit scoring