Extracción de información de imágenes
العنوان: | Extracción de información de imágenes |
---|---|
المؤلفون: | Sánchez Duarte, Laura Catharine, Martínez Ramos, Juan Felipe, Gallego León, Juan Sebastián |
المصدر: | Séneca: repositorio Uniandes Universidad de los Andes instacron:Universidad de los Andes |
بيانات النشر: | Universidad de los Andes, 2022. |
سنة النشر: | 2022 |
مصطلحات موضوعية: | Ingeniería, Procesamiento del lenguaje natural, Modelos de clasificación de texto, Redes neuronales, Reconocimiento óptico de caracteres, Reconocimiento de facturas |
الوصف: | Bancolombia tiene dispuesto para sus clientes una herramienta de organización de las finanzas personales llamada Día a Día, bajo la cual se busca inculcar un buen manejo y control de los gastos mensuales. Lo anterior, mediante el registro y categorización automática de las transacciones que realizan sus usuarios por medio de productos digitales, y el análisis de dichos gastos. Ahora bien, teniendo presente que la mayoría de las transacciones del país se llevan a cabo mediante el dinero en efectivo, una importante porción de los movimientos financieros y consumos de los clientes no se está recopilando eficientemente para el ejercicio de categorización del consumo. En búsqueda de resolver el problema de la recolección de datos para consumos vía pago en efectivo, este proyecto tuvo el objetivo de generar la lineal base de un algoritmo computacional para procesar las fotos de las facturas. De tal manera que, se genere una nueva entrada de datos para el modelo existente de análisis de consumo que tiene Bancolombia. Para esto, se programó un algoritmo que recibe una imagen, la clasifica mediante un modelo ya entrenado como una factura de la categoría de alimentación, moda, gran superficie, salud y bienestar, o como una no factura. Así mismo, extrae el valor total de la factura mediante el OCR AWS Textract, y le retorna al usuario la categoría de consumo y el valor total, o en caso de no ser una factura, genera un mensaje indicando que la imagen no corresponde a una factura de venta. En el proceso de programación del algoritmo se encontró que los modelos que mejor logran predecir la categoría de la imagen a partir del texto extraído son, maquinas de vectores de soporte lineal y perceptrón multicapa, con un F1-Score superior al 85 % para todas las categorías de clasificación, y una acracia promedio del 96 %. Finalmente, luego de llevar a cabo este proyecto, se invita a futuros grupos de trabajo a que continúen desarrollando el algoritmo, de tal manera que se logre clasificar el valor de cada producto dentro de una categoría de consumo, y que así, cada factura cuente con un vector de consumo por categoría. Magíster en Inteligencia Analítica para la Toma de Decisiones Maestría |
وصف الملف: | 37 páginas; application/pdf |
اللغة: | Spanish; Castilian |
URL الوصول: | https://explore.openaire.eu/search/publication?articleId=od______3056::d2803178bbc5396d48e6d91950e255ec |
Rights: | OPEN |
رقم الانضمام: | edsair.od......3056..d2803178bbc5396d48e6d91950e255ec |
قاعدة البيانات: | OpenAIRE |
الوصف غير متاح. |