Cree el extractor de datos de facturas más rápido y preciso para resultados estructurales utilizando IA

Página delantera > Programación > Cree el extractor de datos de facturas más rápido y preciso para resultados estructurales utilizando IA

Cree el extractor de datos de facturas más rápido y preciso para resultados estructurales utilizando IA

Publicado el 2024-11-01

Navegar:112

Create the fastest and precise invoice data extractor for structural output using AI

Uso de LlamaExtract con modelos Pydantic para la extracción de recibos de tiendas

En este artículo, exploraremos cómo utilizar LlamaExtract incorporado con esquemas de modelos de Pydantic para extraer datos estructurados de los recibos de las tiendas. Este enfoque ayuda a organizar la información de los recibos de forma sistemática, lo que facilita su análisis y gestión.

Configuración

Primero, asegúrese de tener instalada la biblioteca cliente de extracto de llama. Utilice el siguiente comando:

pip install llama-extract pydantic

Nota: Si ve un aviso sobre la actualización de pip, puede actualizarlo usando el comando proporcionado.

Primero, inicia sesión y obtén una clave API gratis de Llama Index Cloud

Configure la variable de entorno para su clave API LlamaExtract:

import os

os.environ["LLAMA_CLOUD_API_KEY"] = "YOUR LLAMA INDEX CLOUD API HERE"

Cargar datos

Para este ejemplo, supongamos que tenemos un conjunto de datos de recibos de tiendas en formato PDF. Coloque estos archivos en un directorio llamado recibos.

DATA_DIR = "data/receipts"
fnames = os.listdir(DATA_DIR)
fnames = [fname for fname in fnames if fname.endswith(".pdf")]
fpaths = [os.path.join(DATA_DIR, fname) for fname in fnames]
fpaths

El resultado debe enumerar las rutas de archivo de los recibos:

['data/receipts/receipt.pdf']

Definir un modelo Pydantic

Definiremos nuestro modelo de datos usando Pydantic, esto le indicaría a la API qué campos/datos esperamos o queremos extraer del PDF. Para los recibos de las tiendas, es posible que nos interese extraer el nombre de la tienda, la fecha, el monto total y la lista de artículos comprados.

from pydantic import BaseModel
from typing import List

class Item(BaseModel):
    name: str
    quantity: int
    price: float

class Receipt(BaseModel):
    store_name: str
    date: str
    total_amount: float
    items: List[Item]

Crear esquema

Ahora podemos usar el modelo Pydantic para definir un esquema de extracción en LlamaExtract.

from llama_extract import LlamaExtract

extractor = LlamaExtract(verbose=True)
schema_response = await extractor.acreate_schema("Receipt Schema", data_schema=Receipt)
schema_response.data_schema

El esquema de salida debería parecerse al siguiente:

{
    'type': 'object',
    '$defs': {
        'Item': {
            'type': 'object',
            'title': 'Item',
            'required': ['name', 'quantity', 'price'],
            'properties': {
                'name': {'type': 'string', 'title': 'Name'},
                'quantity': {'type': 'integer', 'title': 'Quantity'},
                'price': {'type': 'number', 'title': 'Price'}
            }
        }
    },
    'title': 'Receipt',
    'required': ['store_name', 'date', 'total_amount', 'items'],
    'properties': {
        'store_name': {'type': 'string', 'title': 'Store Name'},
        'date': {'type': 'string', 'title': 'Date'},
        'total_amount': {'type': 'number', 'title': 'Total Amount'},
        'items': {
            'type': 'array',
            'title': 'Items',
            'items': {'$ref': '#/$defs/Item'}
        }
    }
}

Ejecutar extracción

Con el esquema definido, ahora podemos extraer datos estructurados de nuestros archivos de recibos. Al especificar Recibo como modelo de respuesta, nos aseguramos de que los datos extraídos estén validados y estructurados.

responses = await extractor.aextract(
    schema_response.id, fpaths, response_model=Receipt
)

Puedes acceder a la salida JSON sin formato si es necesario:

data = responses[0].data
print(data)

Ejemplo de salida JSON:

{
    'store_name': 'ABC Electronics',
    'date': '2024-08-05',
    'total_amount': 123.45,
    'items': [
        {'name': 'Laptop', 'quantity': 1, 'price': 999.99},
        {'name': 'Mouse', 'quantity': 1, 'price': 25.00},
        {'name': 'Keyboard', 'quantity': 1, 'price': 50.00}
    ]
}

Conclusión

En este artículo, demostramos cómo usar LlamaExtract con modelos Pydantic para definir esquemas de datos y extraer datos estructurados de recibos de compras. Este enfoque garantiza que la información extraída esté bien organizada y validada, lo que facilita su manejo y análisis.

Esto también se puede utilizar para muchos casos, facturas, recibos, informes, etc.

¡¡Feliz codificación!!

¿Tienes un proyecto? que quieres que te ayude escríbeme??: [email protected]

Tienes una pregunta o quieres ser el primero en enterarte de mis publicaciones:-
¿Sígueme en LinkedIn?
Sígueme en Twitter/X ?

Declaración de liberación Este artículo se reproduce en: https://dev.to/wmisingo/create-the-fastest-and-precise-invoice-data-extractor-for-structural-output-using-ai-pe1?1 Si hay alguna infracción , comuníquese con Study_golang @ 163.com eliminar

Último tutorial Más>

¿Por qué no aparece mi imagen de fondo CSS?
Solución de problemas: css La imagen de fondo que no aparece ha encontrado un problema en el que su imagen de fondo no se carga a pesar de las...

Programación Publicado el 2025-07-01
¿Se pueden apilar múltiples elementos adhesivos uno encima del otro en CSS puro?
¿Es posible tener múltiples elementos pegajosos apilados uno encima del otro en CSS puro? El comportamiento deseado se puede ver Aquí: https...

Programación Publicado el 2025-07-01
¿Cómo puede definir variables en plantillas de cuchilla de laravel elegantemente?
Definición de variables en plantillas de Blade Laravel con elegancia Comprender cómo asignar variables en plantillas de cuchillas es crucial p...

Programación Publicado el 2025-07-01
¿Cómo recuperar la última biblioteca jQuery de Google API?
recuperando la última biblioteca jQuery de Google APIS La URL de jQuery proporcionada en la pregunta es para la versión 1.2.6. Para recuperar ...

Programación Publicado el 2025-07-01
Python Metaclass Principio de trabajo y creación y personalización de clases
¿Qué son los metaclasses en Python? MetAclasses son responsables de crear objetos de clase en Python. Así como las clases crean instancias, las ...

Programación Publicado el 2025-07-01
¿Cómo manejar la entrada del usuario en el modo exclusivo de pantalla completa de Java?
manejo de la entrada del usuario en el modo exclusivo de la pantalla completa en java introducción cuando ejecuta una aplicación Java en mod...

Programación Publicado el 2025-07-01
¿Cómo los map.entry de Java y simplificando la gestión de pares de valores clave?
una colección integral para pares de valor: Introducción de Java Map.entry y SimpleEntry en Java, al definir una colección donde cada elemento...

Programación Publicado el 2025-07-01
¿Cómo analizar los números en notación exponencial usando decimal.parse ()?
analizando un número de la notación exponencial cuando intenta analizar una cadena expresada en notación exponencial usando decimal.parse (&qu...

Programación Publicado el 2025-07-01
¿Cuál es la diferencia entre funciones anidadas y cierres en Python?
Funciones anidadas vs. cierres en python mientras las funciones anidadas en Python se asemejan superficialmente a los cierres, son distintos f...

Programación Publicado el 2025-07-01
¿Cómo insertar o actualizar eficientemente filas basadas en dos condiciones en MySQL?
solución: La respuesta se encuentra en la sintaxis de la actualización de clave duplicada de MySQL. Esta potente característica permite una mani...

Programación Publicado el 2025-07-01
El error del compilador "usr/bin/ld: no se puede encontrar -l" solución
Error encontrado: "usr/bin/ld: no puedo encontrar -l " -l usr/bin/ld: cannot find -l<nameOfTheLibrary> agregando rutas de ...

Programación Publicado el 2025-07-01
¿Cómo puedo manejar los nombres de archivo UTF-8 en las funciones del sistema de archivos de PHP?
manejando los nombres de archivo UTF-8 en las funciones del sistema de archivos de PHP al crear carpetas que contienen caracteres UTF-8 utiliz...

Programación Publicado el 2025-07-01
Async void vs. async tarea en ASP.NET: ¿Por qué el método de async void a veces arroja excepciones?
comprensión de la distinción entre la tarea async void y async en asp.net en aplicaciones ASP.NET, la programación asíncrona juega un papel cr...

Programación Publicado el 2025-07-01
¿Cómo crear variables dinámicas en Python?
Dynamic Variable Creation en python La capacidad de crear variables dinámicamente puede ser una herramienta poderosa, especialmente cuando se ...

Programación Publicado el 2025-07-01
Método XML de análisis de PHP simple con colon de espacio de nombres
analizando xml con las colons de espacio de nombres en php simplexml encuentra dificultades al analizar XML que contiene etiquetas con colons,...

Programación Publicado el 2025-07-01

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo