Saltar al contenido

Conceptos básicos de fijación de precios de seguros

septiembre 23, 2021
1x JImkAet WJnD38HE0bg

Conceptos básicos de la fijación de precios de seguros

Con una introducción rápida a los modelos GLM

Samuel Tober

29 de junio de 2020·7 min de lectura

1*x JImkAet WJnD38HE0bg

Introducción

En este artículo se explicarán los conceptos básicos de la fijación de precios de seguros: por qué la fijación de precios es tan importante, qué sucede si la estrategia de fijación de precios está fuera de línea y cómo las compañías de seguros establecen sus primas mediante modelos estadísticos. En la sección final, se presenta un estudio de caso muy simple que utiliza datos de seguros reales para poner algo de carne en los huesos de las ideas de la introducción.

Por qué los precios son importantes

La industria de los seguros es una industriay preocupados por la cobertura contra el riesgo de pérdidas financieras inciertas y, por lo tanto, el negocio de las compañías de seguros es en gran medida un esfuerzo de gestión de riesgos. El asegurado negocia el riesgo futuro con una aseguradora por una prima fija a través de un contrato, conocido como póliza de seguro, y si el titular de la póliza está sujeto a una pérdida, puede presentar una reclamación a la aseguradora, si la póliza lo permite. La prima la establece la aseguradora antes de cualquier reclamo y, por lo tanto, es vital para la empresa predecir los riesgos de sus clientes para establecer una prima rentable. Teniendo esto en cuenta, no es sorprendente que el modelado predictivo se utilice ampliamente en las compañías de seguros; tanto en la evaluación de clientes como en el establecimiento de primas.

Como ejemplo para resaltar la importancia de tener una estrategia de precios bien pensada, suponga que existen dos compañías de seguros, A y B, y que A tiene una prima baja en relación con el riesgo de pérdida, mientras que B tiene una prima adecuada en relación con el riesgo de pérdida. riesgo. En este escenario, los clientes de alto riesgo optarían por A ya que su prima es relativamente baja en comparación con B, por lo que A atraería clientes de alto riesgo y, de hecho, vería que sus márgenes se devoran. Por el contrario, si las primas de A son demasiado altas, no atraerán a ningún cliente rentable y aún así perderán dinero. A la luz de este sencillo ejemplo, vemos por qué una estrategia de precios competitiva es primordial.

Además, según la Encuesta global de consumidores de distribución y marketing de 2017 de Accenture Financial Services, un estudio de 32.715 clientes de seguros en 18 mercados, se descubrió que el precio era el principal impulsor de la lealtad de los clientes, y el 52% de los clientes de seguros de automóviles lo eligieron. como su palanca superior.

1*q0CXp3MF4T5w0LCgo5sC6g

¿Cómo establecen las primas las compañías de seguros?

Como se explicó anteriormente, la prima se establece en relación con el riesgo del cliente, para garantizar que se cubra la pérdida del cliente. Sin embargo, esto no representa todo el precio final. Como cualquier otro negocio, una compañía de seguros tiene sus propios costos y opera para obtener ganancias. Por lo tanto, la prima está configurada no solo para cubrir la pérdida del cliente, sino también para cubrir los costos y mantener un margen decente.

No obstante, la base de la prima es elegir una prima según el riesgo del cliente. Para ello, se debe estimar el riesgo de que el cliente busque un seguro. Dependiendo de qué producto de seguro estemos, se utilizan diferentes variables explicativas y comúnmente estas se dividen en dos grupos: Variables de sujeto, en relación con la persona que compra el seguro, y variables de objeto, en relación con el objeto a asegurar; ya sea una casa, un automóvil o cualquier otro objeto asegurable. Por ejemplo, en el seguro de hogar, los actuarios podrían utilizar variables como el área de vivienda de la propiedad, el número de personas que viven en el hogar o la edad de la persona que contrata el seguro. El supuesto subyacente es que existe una correlación entre estas variables y el riesgo, cómo se ve esta correlación, por supuesto, es diferente, pero como ejemplo, el riesgo de asegurar una propiedad generalmente disminuye con la edad del empresario de pompas fúnebres, ya que la vejez generalmente implica una mayor atención. y cuidado.

¿Qué es el riesgo?

En términos de seguros, el riesgo es la posibilidad de que suceda algo dañino o inesperado. Esto puede implicar la pérdida, el robo o el daño de bienes y pertenencias valiosas, o puede implicar que alguien resulte lesionado. Desde un punto de vista estadístico, el riesgo se puede definir como:

1*qISiOIdXQFJ4Z2cjf0kVGg

dónde L es la perdida y mi el período de validez del seguro (exposición). Si asumimos que el tamaño de los reclamos es independiente de la frecuencia de los reclamos, podemos hacer la siguiente expansión:

1*wAehyq88KgGKEt2jgZRj g

dónde norte es el número de reclamaciones, S la gravedad o el tamaño de la reclamación y F la frecuencia de reclamaciones.

Métodos para estimar el riesgo

No es de extrañar que los actuarios usen métodos estadísticos para estimar el riesgo, hasta la década de 1980 los actuarios se basaron en la regresión lineal para modelar el riesgo, pero gracias al establecimiento de un modelo conocido como Modelo Lineal Generalizado (GLM), eso cambió. La ventaja del GLM sobre la regresión lineal simple es que el modelo GLM permite una dependencia no lineal a través de lo que se llama un función de enlace (g en la siguiente ecuación).

1*DfeY9TavvuUm MZHFFy7lg

dónde Y es la variable dependiente, X las variables independientes y beta los parámetros que se ajustan mediante regresión. Tenga en cuenta que sin la función de enlace, la expresión sería simplemente una regresión lineal.

Hoy en día, las primas de la mayoría de las compañías de seguros se establecen utilizando modelos GLM y, hasta cierto punto, se han convertido en la zona de confort de los actuarios. Sin embargo, en los últimos años, debido a los avances tecnológicos y la realización de big data en muchas industrias, la popularidad del uso del aprendizaje automático (ML) en aplicaciones comerciales ha experimentado un aumento, y la industria de seguros no es una excepción. Al emplear modelos de ML en seguros, es importante tener en cuenta el RGPD, ya que exige la interpretación de los modelos. Por lo tanto, los modelos basados ​​en árboles fáciles de interpretar suelen ser los preferidos, e incluso se ha demostrado que cuentan con una mejor precisión predictiva que los GLM tradicionales sobre datos de seguros (consulte https://arxiv.org/abs/1904.10890).

Supuestos de modelado

En cualquier modelo, se deben hacer suposiciones sobre la naturaleza de los datos y las variables utilizadas. Ya encontramos una suposición que es común en los modelos de riesgo de seguros, a saber, que la gravedad y la frecuencia de las reclamaciones de los clientes son independientes. Usando este supuesto, los actuarios construyen dos modelos, uno para la severidad y otro para la frecuencia, y luego combinan las predicciones de los dos para encontrar la estimación del riesgo. Sin embargo, esta no es una suposición necesaria ya que el riesgo también puede modelarse directamente. Cualquiera que sea la decisión que se tome, siempre se asume que la variable dependiente, ya sea riesgo, gravedad o frecuencia, sigue una distribución estadística conocida. Por ejemplo, generalmente se supone que el número de reclamaciones presentadas por un cliente se distribuye de acuerdo con una distribución de Poisson, mientras que la gravedad suele seguir una distribución gamma. Cuando los actuarios modelan el riesgo directamente, la denominada distribución Tweedie es una opción común.

Estudio de caso: de los datos de siniestros a la predicción de riesgos

Aquí se presenta un ejemplo de construcción de un modelo de frecuencia a partir de datos de seguros de hogar utilizando el software estadístico R.

Primero echamos un vistazo a los datos a mano, el número de reclamos es nuestra variable dependiente, lo visualizamos a través de un histograma para ver qué distribución sigue y para tener una visión general del problema:

1*9dlp3 PHkij4R4dokGvaDQ

Evidentemente, el número de reclamaciones está muy sesgado, ya que la mayoría de los clientes no han tenido ninguna reclamación, por lo que vemos un aumento en cero. Esto motiva por qué el uso de una distribución de Poisson podría ser una buena idea, al ajustar el parámetro lambda en la distribución de Poisson se puede capturar esta asimetría.

El primer paso en el modelado es limpiar los datos y elegir qué funciones usar. Una vez hecho esto, podemos ajustar un GLM a los datos.

Primero leemos los datos en R y los dividimos en conjuntos de entrenamiento / prueba:

Frequency_data <- read.csv("C:/Users/Samuel Tober/Desktop/Projects/Data/Frequency_data.csv")set.seed(123) #Set seed for reproducibility
sample <- sample.split(Frequency_data, SplitRatio = 0.80) #Split data into 80% training 20% test
train = subset(Frequency_data, sample==TRUE)
test = subset(Frequency_data, sample==FALSE)

Luego, ajustamos un modelo GLM a los datos de entrenamiento usando el paquete «glm»:

model <- glm('NO_CLAIM_NOT_NULL ~ NO_INSUR + AGE_INSUR_PERS +                                    LIVE_AREA + offset(log(EXP_COV))', family = poisson(link = "log"),         data = train)

Aquí modelamos el número de reclamaciones (NO_CLAIM_NOT_NULL) en función del número de personas en el hogar (NO_INSUR), la edad del cliente (AGE_INSUR_PERS) y el área de residencia de la propiedad (LIVE_AREA). Tenga en cuenta que incluimos la exposición (EXP_COV) como un desplazamiento en el modelo GLM, esto es para que podamos usar la regresión de Poisson para los datos de tasa (Poisson generalmente solo se aplica a los datos de recuento). Además, especificamos link = “log”, donde link se refiere a la función de link, g, mencionada anteriormente, y elegimos el logaritmo ya que estamos tratando con datos distribuidos de Poisson.

A continuación, probamos y evaluamos el modelo utilizando el error cuadrático medio (MSE) y el error absoluto medio (MAE) como métricas (hay métricas más adecuadas como la desviación de Poisson, pero aquí elegimos una métrica simple de entender con fines educativos, más sobre métricas en un artículo futuro):

pred <- exp(predict(model, test))
MSE <- sqrt(mean((test$NO_CLAIM_NOT_NULL - pred*test$EXP_COV)^2)) #Mean squared error
MAE <- sum(abs(test$NO_CLAIM_NOT_NULL - pred*test$EXP_COV))/nrow(test) #Mean absolute error
> MSE = 0.182480104096452
> MAE = 0.0582112950956896

Con este modelo ahora podemos predecir la frecuencia de reclamaciones de un cliente de seguros, y si de manera similar construimos un modelo de severidad, llegamos a un modelo de precios completo bajo el supuesto de independencia de frecuencia-severidad.

Tenga en cuenta que este es un ejemplo extremadamente simplificado, consulte https://www.casact.org/pubs/monographs/papers/05-Goldburd-Khare-Tevet.pdf y / o https://link.springer.com /book/10.1007/978-3-642-10791-7 para obtener explicaciones más extensas y un escaparate del modelo GLM.

close