Credit Scoring, Inteligencia Artificial y Validación en Python y R Nivel Intermedio
OBJETIVO
El objetivo del curso es enseñar al participante a desarrollar y gestionar modernas y potentes herramientas de credit scoring, calibrar la probabilidad de default y validar los modelos. Además, el participante conocerá herramientas de inteligencia artificial para la automatización de la modelización y validación del credit scoring.
Se explica el impacto del COVID-19 en los modelos de riesgo crédito y los nuevos retos en materia de modelización.
El participante aprenderá a desarrollar modelos de credit scoring, tradicionales y avanzados, en la etapa de admisión y seguimiento del crédito. Es decir, se explica la construcción del credit y behavior scoring empleando volúmenes de información enormes.
Respecto a la analítica de datos, se expone un módulo, sobre el tratamiento avanzado de los datos, explicando entre otros temas, el muestreo, análisis exploratorio, segmentación y detección de outliers.
Se exponen las principales técnicas del machine learning, aprendizaje supervisado, no supervisado y de refuerzo, aplicados a la creación de herramientas de credit scoring.
Se exponen metodologías tradicionales como la regresión logística y otras, innovadoras, de machine learning, tales como: árboles de decisión, naive bayes, KKN, Regresión logística LASSO, random forest, redes neuronales, redes bayesianas, Support Vector Machines, gradient boosting tree, etc .
Se explica el algoritmo avanzado deep learning para desarrollar potentes modelos de credit scoring que los bancos pueden implementar como herramientas desafiantes o herramientas útiles en el proceso de admisión.
Se expone el uso del text mining para tratar variables que incluyan una cantidad importante de texto y sobre todo relacionarlas con la morosidad.
Se entregan modelos de credit scoring, con distintas metodologías en diversos lenguajes de programación como lo son: R, Python, Jupyterlab, Tensorflow y SAS.
Se enseñan metodologías avanzadas para calibrar el parámetro de riesgo PD. Se aborda la calibración por ajuste a la tendencia central, la filosofía del rating PD PIT y PD TTC, la calibración de modelos de machine learning para que produzcan probabilidades de default.
Se indican las mejores prácticas de validación tradicional y automatizada de modelos de credit scoring de las entidades financieras.
¿QUIÉNES DEBEN ASISTIR?
El Curso está dirigido a profesionistas de entidades financieras interesados en el desarrollar potentes modelos de credit scoring y calibrar la salida de los mismos, así como a responsables de modelos en los departamentos de riesgo crédito y ciencia de datos.
Para la mejor comprensión de los temas es necesario que el participante tenga conocimientos de estadística. Y es un plus si tiene conocimientos de Machine Learning.
Horarios:
-
Santiago de Chile, Sao Paulo, Buenos Aires, Santo Domingo: L a V: 18-21h
-
España, Portugal: L a V 19-22 h
-
Ciudad de México, Quito, Bogotá, San José: L a V 19-22 h
Precio: 4.900 €
Nivel: Intermedio
Duración: 30 h
Material:
Presentaciones PDF, Ejercicios Excel, R ,SAS, Python, Jupyterlab y Tensorflow
AGENDA
Credit Scoring: Automatización de la Modelización con IA
Módulo 0: Impacto del COVID-19 en el Riesgo Crédito
-
Pandemia Covid-19 en el mundo
-
Casos de contagio, muertes y recuperaciones
-
Estrategias de mitigación de la propagación en el mundo
-
Análisis matemático de las curvas de contagio por países
-
Modelo SIR: S (población susceptible), I (población infectada) y R (población recuperada)
-
-
Estrategias de la OMS para paliar emergencia sanitaria
-
Gastos de salud respecto al PIB esperados
-
Impacto financiero y desplome de las bolsas
-
Impacto de la caída del precio del petróleo
-
Impacto en la economía mundial
-
Posible Recesión Mundial
-
Expectativas del PIB OCDE
-
Incremento de tasa de paro por países
-
Planes de emergencia
-
Acuerdos del Video-Call G-20
-
Sectores económicos más desfavorecidos
-
-
Impacto en la banca
-
Impacto en el capital: Buffers de capital
-
Impacto en las provisiones del IFRS 9
-
Crecimiento de la morosidad
-
-
Impacto en el Riesgo de Crédito
-
Impacto en el ciclo de crédito
-
Impacto en la admisión y seguimiento
-
Impacto en la morosidad
-
Impacto de las moratorias en el riesgo crédito
-
Impacto sectorial del riesgo de crédito
-
Impacto en el credit scoring
-
-
Impacto en el riesgo de liquidez
-
Análisis Coste-Beneficio de las cuarentenas
-
Gastos y ahorros en materia de salud
-
Módulo 1: Big Data y Disrupción digital
-
Definición de Big Data
-
Big Data en las entidades financieras y fintech
-
Big data en las Bigtech
-
Tipología de datos
-
Estructurados
-
Semiestructurados
-
Datos No Estructurados
-
-
Big data: Volumen, Velocidad, Variedad, Veracidad y Valor
-
Tamaño de los Big Data
-
Fuentes de grandes volúmenes de datos
-
Data transaccional
-
Data de redes sociales
-
Data de buró de crédito
-
Origen de las fuentes de datos
-
Los datos de la web
-
Datos de Texto
-
Datos de sensores
-
Datos de RFID y NFC
-
Datos de operadores de telecos
-
Datos de redes inteligentes
-
-
Digitalización bancaria
-
Inclusión financiera
-
Regulación en Europa, EEUU y Latinoamérica
Módulo 2: Credit Scoring
-
Credit Scoring para Banca
-
Credit Scoring con big data
-
Diseño y Construcción de Modelos de Credit Scoring
-
Ventajas e Inconvenientes
-
Modelos para afrontar nuevas crisis financierias
-
Machine Learning para desarrollar y validar credit scoring
-
Importancia del Bureau Score
-
Gestión de los Credit Scorecards
-
Estimación de la Probabilidad de Default PD
Módulo 3: Machine Learning
-
Definición del Machine Learning
-
Metodología del Machine Learning
-
Almacenamiento de la Data
-
Abstracción
-
Generalización
-
Evaluación
-
-
Aprendizaje Supervisado
-
Aprendizaje No Supervisado
-
Aprendizaje por Refuerzo
-
Deep Learning
-
Tipología de algoritmos de Machine Learning
-
Pasos para implementar un algoritmo
-
Recogida de información
-
Análisis Exploratorio
-
Entrenamiento del modelo
-
Evaluación del Modelo
-
Mejoras al modelo
-
Machine Learning en riesgo crédito de consumo
-
-
Machine Learning en modelos de credit scoring
-
Análisis de principales herramientas: R, Python, Microsoft Azure, SAS Enterprise Miner, SAS Visual Analytics, Knime, IBM SPSS Modelller, Spark,,etc.
MODELIZACIÓN
Módulo 4: Análisis Exploratorio
-
Tipología de datos
-
Datos transaccionales
-
Unstructured data embebida en documentos de texto
-
Social Media Data
-
Fuentes de datos
-
Revisión del dato
-
Definición del Target
-
Horizonte temporal de la variable objetivo
-
Muestreo
-
Muestreo Aleatorio
-
Muestreo Estratificado
-
Muestreo Rebalanceado
-
-
Análisis Exploratorio:
-
Histogramas
-
Q-Q Plot
-
Análisis de momentos
-
Box Plot
-
-
Tratamiento de los valores Missing
-
Modelo Multivariante de Imputación
-
-
Técnicas avanzadas de detección de Outliers y tratamiento
-
Técnica univariante: winsorized y trimming
-
Técnica Multivariante: Distancia de Mahalanobis
-
Módulo 5: Análisis Univariante
-
Estandarización de los Datos
-
Categorización de variables
-
Equal Interval Binning
-
Equal Frecuency Binning
-
Prueba Ji-Cuadrada
-
-
Binary Coding
-
WOE Coding
-
Definición WOE
-
Análisis Univariante con variable Target
-
Selección de variables
-
Tratamiento de Variables continuas
-
Tratamiento de Variables Categóricas
-
Gini
-
Information Value
-
Optimización de variables continuas
-
Optimización de variables categóricas
-
-
Ejercicio 1: Análisis Exploratorio en R
-
Ejercicio 2: Detección y tratamiento de Outliers Avanzado
-
Ejercicio 3: Muestreo estratificado y Aleatorio en R
-
Ejercicio 4: Modelo multivariante de impuación
-
Ejercicio 5: Análisis univariante en percentiles en R
-
Ejercicio 6: Análisis univariante óptimo variable continua en Excel
-
Ejercicio 7: Estimación del KS, Gini e IV de cada variable en Excel
-
Ejercicio 8: Análisis Word Cloud de variables en R
Módulo 6: Modelo predictivo univariante
usando Text Mining
-
Definición Text Mining
-
Modelo para variables con contenido descriptivo
-
Unstructured Data
-
Análisis Exploratorio
-
Treemaps
-
Modelización predictiva en el Text Mining
-
K-Nearest Neighbors
-
-
Text Mining Predictivo
-
Keyword Search
-
Algortimos de clasificación
-
Algoritmos Clustering
-
-
Sentimiento en lingüística y Psicología
-
Subjetividad
-
Facticidad
-
-
Lingüística Computacional
-
Lexicón y Corpora
-
Enfoque basado en reglas
-
Enfoque Machine Learning
-
-
Análisis de Sentimientos en Twitter
-
Análisis y Score de polaridad
-
Support Vector Machine
-
-
Ejercicio 9: Análisis Word Cloud de variables en R
-
Ejercicio 10: Text Mining aplicado a la data no estructurada
-
Ejercicio 11: Score de polaridad
-
Ejercicio 12: Análisis de Sentimientos usando SVM para detectar defaults
Aprendizaje No Supervisado
Módulo 7: Modelos no supervisados
-
Clusters Jerárquicos
-
K-Means
-
Algoritmo estándar
-
Distancia Euclidiana
-
Análisis de Componentes principales (PCA)
-
Visualización avanzada de PCA
- Eigenvectores e Eigenvalores
-
Ejercicio 14: Componentes principales en R y SAS
-
Ejercicio 15: Segmentación de la data con K-Means R
Aprendizaje Supervisado
Módulo 8: Regresión Logística y Regresión LASSO
-
Modelos Econométricos
-
Regresión Logit
- Regresión probit
-
Regresión Piecewise
-
Modelos de supervivencia
-
-
Modelos de Machine Learning
-
Regresión Lasso
-
Regresión Ridge
-
-
Riesgo de Modelo en la regresión logística
-
Ejercicio 16: Credit Scoring Regresión Logística en SAS y R
-
Ejercicio 17: Credit Scoring Regresión Logística Lasso en R
-
Ejercicio 18: Riesgo de Modelo usando Intervalos de confianza de coeficientes de regresión logística
Módulo 9: Árboles, KNN y Naive Bayes
-
Árboles de Decisión
-
Modelización
-
Ventajas e inconvenientes
-
Procesos de Recursión y Particionamiento
-
Recursive partitioning tree
-
Pruning Decision tree
-
Conditional inference tree
-
Visualización de árboles
-
Medición de la predicción de árboles de decisión
-
Modelo CHAID
-
Modelo C5.0
-
-
K-Nearest Neighbors KNN
-
Modelización
-
Ventajas e inconvenientes
-
Distancia Euclidiana
-
Distancia Manhattan
-
Selección del valor K
-
-
Modelo Probabilístico: Naive Bayes
-
Bayes Ingenuo
-
Teorema de Bayes
-
Estimador de Laplace
-
Clasificación con Naive Bayes
-
Ventajas e inconvenientes
-
-
Ejercicio 19: Credit Scoring Árbol de decisión en SAS y R
-
Ejercicio 20: Credit Scoring KNN en R y SAS
-
Ejercicio 21: Credit Scoring Naive Bayes en R
Módulo 10: Support Vector Machine SVM
-
SVM con variables dummy
-
SVM
-
Hiperplano óptimo
-
Support Vectors
-
Añadir costes
-
Ventajas e Inconvenientes
-
Visualiización del SVM
-
Tuning SVM
-
Truco de Kernel
-
Ejercicio 22: Credit Scoring Support Vector Machine en R data 1
-
Ejercicio 23: Credit Scoring upport Vector Machine en Python data 2
Módulo 11: Redes Neuronales (Neural Networks NN)
-
Neurona artifical
-
Entrenamiento de Perceptron
-
Perceptrón
-
Algoritmo de backpropagation
-
Procedimientos de entrenamiento
-
Tuning NN
-
Visualización de NN
-
Ventajas e inconvenientes
-
Ejercicio 24: Credit Scoring Redes Neuronales: perceptron multicapas en R data 1
-
Ejercicio 25: Credit Scoring Redes Neuronales en Python data 2
Módulo 12: Ensemble Learning
-
Modelos de conjuntos
-
Bagging
-
Bagging trees
-
Random Forest
-
Boosting
-
Adaboost
-
Gradient Boosting Trees
-
Ventajas e inconvenientes
-
Ejercicio 26: Credit Scoring Boosting en R
- Ejercicio 27: Credit Scoring Bagging en R
-
Ejercicio 28: Credit Scoring Random Forest, R y Python, data 1 y 2
-
Ejercicio 29: Credit Scoring Gradient Boosting Trees
Módulo 14: Deep Learning
-
Definición y concepto del deep learning
-
¿Porque ahora el uso del deep learning?
-
Arquitecturas de redes neuronales
-
Función de activación
-
Sigmoidal
-
Rectified linear unit, Relu
-
Hipertangente
-
Softmax
-
-
Feedforward network
-
Perceptrón Multicapa
-
Uso de Tensorflow
-
Uso de Tensorboard
-
R deep Learning
-
Python deep Learning
-
Redes neuronales convolucionales
-
Uso del deep learning en la clasificación de imágenes
-
Función de costes
-
Optimización con Gradiente descendiente
-
Uso del deep learning para el credit scoring
-
¿Cuantas capas ocultas?
-
¿Cuantas neuronas, 100, 1000?
-
¿Cuantas épocas y tamñao del batch size?
-
¿Cual es la mejor función de activación?
-
-
Software Deep Learning: Caffe, H20, Keras, Microsoft, Matlab, etc.
-
Software de implementación: Nvidia y Cuda
-
Harware, CPU, GPU y entornos cloud
-
Ventajas e inconvenientes del deep learning
-
Feedforward neural network
-
Perceptrón Multicapa
-
Redes neuronales convolucionales
-
Uso del deep learning en la clasificación de imágenes
-
Redes neuronales recurrentes
-
Series temporales
-
Long Short Term Memory
-
Ejercicio 30: Credit Scoring usando Deep Learning feedforward neural network
-
Ejercicio 31: Credit Scoring usando Deep Learning redes neuronales convolucionales
Módulo 15: Riesgo de Modelo en el Scorecard
-
Asignación de puntuación
-
Clasificación del Scorecard
-
Scorecard WOE
-
Scorecard Binario
-
Scorecard Continuo
-
-
Reescalamiento del Scorecard
-
Análisis del Factor y Offset
-
Scorecard WOE
-
Scorecard Binario
-
-
Técnicas de Reject Inf erence
-
Cut-Off
-
Parcelling
-
Fuzzy Augmentation
-
-
Técnicas Avanzadas de punto de corte
-
Optimización del punto de corte usando curvas ROC
-
-
Reinforcement Learning
-
Markov decisions processes
-
-
Riesgo de Modelo por decisión de punto de corte
-
Riesgo de Modelo por ausencia de datos
-
Riesgo de Modelo por no actualizar o recalibrar
-
Ejercicio 32: Construcción de Tarjeta de Puntuación en Excel
-
Ejercicio 33: Estimación óptima punto de corte en Excel y riesgo de modelo por selección punto de corte
-
Ejercicio 34: Matriz de confusión para verificar Error Tipo 1 y Tipo 2 en Excel con y sin variables
-
Ejercicio 35: Riesgo de modelo en credit scoring por no recalibrar a tiempo
Módulo 16: Modelos de Credit Scoring por producto
-
Credit Scoring de Admisión
-
Score de Tarjetas de crédito
-
Score de Hipotecas
-
Score de consumo
-
Score de Automóvil
-
-
Behavior Score (BS)
-
Horizonte temporal
-
Información de datos de panel
-
Regresión de datos de panel
-
Regresión Cox
-
Behavior Score con variables macroeconómicas
-
Matrices de transición
-
Behavior Score con matrices de transición
-
Transaction Score
-
-
BEHAVIOR SCORE EN TARJETAS DE CRÉDITO
-
Ejercicio 36: Behavior Score Regresión Logística en SAS data 1
-
Ejercicio 37: Behavior Score Regresión Logística en Python data 2
-
Ejercicio 38: Behavior Score Support Vector Machines en python
-
Ejercicio 39: Behavior Score Random Forest en python
-
Ejercicio 40: Behavior Score Gradient Boosting Trees en python
-
Ejercicio 41: Behavior Score Deep Learning en python
Módulo 17: Validación de modelos tradicionales y de Machine Learning
-
Validación Out of Sample y Out of time
-
Verificación p-values en regresiones
-
R cuadrado, MSE, MAD
-
Diagnóstico de los residuos
-
Test de Bondad de Ajuste
-
Deviance
-
Bayesian Information Criterion (BIC)
-
Akaike Information Criterion
-
-
Multicolinealidad Multivariante
-
Validación cruzada
-
Bootstrapping del error
-
Matriz de confusión caso binario
-
Matriz de confusión caso multinomial
-
Principales test de poder discriminante:
-
KS
-
Curva ROC
-
Curva Lift
-
Gini Index
-
Cumulative Accuracy Profile
-
Distancia de Kullback-Leibler
-
Pietra Index
-
1-Ph
-
Entropía condicional
-
Valor de Información
-
Brier Score
-
Divergencia
-
Hosmer Lemeshow
-
-
Intervalos de confianza
-
Jackknifing con test de poder discriminante
-
Bootstrapping con test de poder discriminante
-
Estadístico Kappa
-
K-Fold Cross Validation
-
Análisis Semafórico
-
Ejercicio 42: Test de Bondad de Ajuste Regresión Logística
-
Ejercicio 43: Validación cruzada en SAS
-
Ejercicio 44: Estimación Gini, Valor de la Información, Brier Score, Curva Lift, CAP, ROC, Divergencia en SAS y Excel
-
Ejercicio 45: Bootstrapping de parámetros SAS
-
Ejercicio 46: Jackkinifng en SAS
-
Ejercicio 47: Bootstrapping de Gini/ROC en SAS
-
Ejercicio 48: Estimación Kappa
-
Ejercicio 49: K-Fold Cross Validation en R
-
Ejercicio 50: Validación semafórica out of time (horizonte 6 años) de modelos Logístico y de Machine Learning
Módulo 18: Pruebas de estabilidad
-
Índice de estabilidad en modelo
-
Índice de estabilidad en factores
-
Test Xi-cuadrada
-
Test K-S
-
Ejercicio 51: Pruebas de estabilidad de modelos y de factores
CALIBRACIÓN DE MODELOS DE PD
Módulo 19: Calibración de la Probabilidad de Default PD
-
Estimación de la PD
-
Modelos econométricos
-
Modelos de Machine Learning
-
Requerimiento de datos
-
Risk drivers y criterio del credit scoring
-
Filosofía del rating
-
Tratamiento de los Pools
-
Calibración de la PD
-
Definición de Default
-
Long run average for PD
-
Defaults técnicos y filtros técnicos del default
-
Requerimiento de datos
-
Cálculo de tasa de default a un año
-
Cálculo de Tasa de default a largo plazo
-
Riesgo de Modelo de la PD
-
Margen de Conservadurismo
-
-
Técnicas de calibración
-
Estimación Anchor Point
-
Mapping de Score a PD
-
Ajuste al Ciclo Económico de la PD
-
Filosofía del Rating
-
Modelos PD Trough The Cycle (PD TTC)
-
Modelos PD Point in Time PD (PD PIT )
-
-
Calibración Scaled PD
-
Calibración Scaled Likelihood ratio
-
Suavizamiento de las curvas de PD
-
Quasi moment matching
-
Calibración de PD de modelos de Machine y Deep Learning
-
Ejercicio 52: Calibración de la PD por ajuste a la tendencia central
-
Ejercicio 53: Calibración de PD Anchor point
-
Ejercicio 54: Calibración de PD PIT
-
Ejercicio 55: Calibración de PD en modelos de Machine Learning
-
Ejercicio 56: Modelización del Margen de Conservadurismo PD
-
Ejercicio 57: Calibración PD TTC
VALIDACIÓN DE MODELOS DE PD
Módulo 20: Backtesting PD
-
Definición del Backtesting PD
-
Validación de Calibración de PD
-
Hosmer Lameshow test
-
Normal test
-
Binomial Test
-
Spiegelhalter test
-
Redelmeier Test
-
Traffic Light Approach
-
-
Análisis Semafórico y Cuadro de mando de la PD
-
PD Stability Test
-
Forecasting PD vs PD Real en el tiempo
-
Validación con simulación de Monte Carlo
-
¿Cuando recalibrar o reestimar un modelo de credit scoring?
-
Re-development
-
Re-estimation
-
Riesgo de Modelo en la PD
-
Machine Learning para validar los modelos de PD
-
Ejercicio 58: Backtesting de PD en Excel
-
Ejercicio 59: Forecasting PD y PD real en Excel
-
Ejercicio 60: Validación usando Simulación de Monte Carlo en Python
AUTOMATIZACIÓN DE LA MODELIZACIÓN CON IA
Módulo 21: Automatización de la Modelización
-
¿ Que es la automatización de la modelización?
-
Que se automatiza
-
Automatización de los procesos de machine learning
-
Optimizadores y evaluadores
-
Componentes del Workflow de la automatización de la modelización
-
Resumen
-
Procesado
-
Feature engineering
-
Generación del modelo
-
Evaluación
-
-
Optimización de hiperparámetros
-
Reconstrucción o recalibración del credit scoring
-
Modelización del Credit Scoring
-
Principales hitos
-
Evaluación y optimización
-
Posibles Issues
-
-
Modelización de la calibración de la PD
-
Evaluación y optimización
-
Backtesting
-
Poder Discriminante
-
Pruebas de Estabilidad
-
-
Evaluación global de la automatización de la modelización
-
Implementación de la automatización de la modelización en banca
-
Requerimientos tecnológicos
-
Herramientas disponibles
-
Beneficios y posible estimación del ROI
-
Principales Issues
-
Riesgo de Modelo
-
Ejercicio 61: Automatización de la modelización y optimización y validación de hiperparametría del credit scoring
-
Ejercicio 62: Automatización de la modelización y validación de una herramienta de credit scoring