Skip to main content

Gracias a la amplia variedad de herramientas disponibles hoy en día para crear experiencias habilitadas por voz, proporcionadas por OpenAI, Google, AWS y Microsoft, la complejidad de desarrollar aplicaciones de asistentes de voz con capacidades conversacionales se ha reducido drásticamente.


Contexto

Si hace cinco años un cliente nos hubiera pedido desarrollar una aplicación móvil en la que los usuarios pudieran hacer preguntas con su voz y recibir respuestas naturales, con un tono amigable y basadas en una base de conocimiento específica (por ejemplo, una cadena de supermercados donde los clientes pudieran preguntar: ”¿En qué tienda puedo encontrar huevos orgánicos?”), habríamos estimado un proyecto de gran magnitud, buscado apoyo de múltiples socios y marcado el proyecto como altamente riesgoso.

Sin embargo, desde que OpenAI lanzó sus modelos para uso de terceros a través de APIs, la integración de IA generativa en los negocios se ha vuelto accesible para todos. Más tarde, otros grandes jugadores del mercado, como Google con Vertex AI y AWS con Lex, también lanzaron sus propios modelos conversacionales con soporte de voz.

Caso de Uso

Recientemente tuvimos la oportunidad de desarrollar una aplicación basada en la API en tiempo real de OpenAI para un cliente cuya base de conocimiento era compleja de entender, buscar y aprender para muchas personas.

Objetivo

Crear una aplicación móvil que permitiera a los usuarios navegar en la base de conocimiento y consultarla mediante comandos de voz.

Desafío

El presupuesto era limitado, por lo que solo pudimos asignar un equipo pequeño de dos personas: un desarrollador backend y un desarrollador móvil, con un plazo ajustado de pocas semanas.

Optamos por React Native para desarrollar la app, ya que necesitábamos llegar rápido al mercado y el cliente no requería una experiencia de nivel completamente nativo. Para la infraestructura, utilizamos:

WebRTC para la transmisión de voz,

Un kit de UI para agilizar el diseño y desarrollo de la interfaz,

Django en el backend para conectar la aplicación con la base de conocimiento.Blog Mauro diagrama 1

IA Generativa Lista para Usar

Antes de elegir un proveedor de IA, realizamos una comparación entre costo y funcionalidades. La API en tiempo real de OpenAI resultó la mejor opción (con un costo aproximado de $0.40 por cada cinco minutos de audio en GPT-4o mini).

Aprovechamos su funcionalidad de agentes para diseñar un asistente que guiara a los usuarios en sus consultas hasta llegar a la información que necesitaban.

 

Blog Mauro diagrama 2

Principales desafíos técnicos

1. Diseño del UX/UI de la aplicación: Crear una experiencia fluida e intuitiva.

2. Desarrollo de la capa API: Permitir el acceso eficiente a la base de conocimiento.

3. Ingeniería de prompts:

Asegurar que el asistente respondiera exclusivamente con información de la base de conocimiento.

Permitir flexibilidad en la forma en que los usuarios formularan sus preguntas.

4. Conexión con la base de datos:

Convertir las consultas en lenguaje natural a búsquedas estructuradas.

Optimizar la precisión de los                                                                                             resultados.


Gracias a los bloques de construcción de OpenAI, logramos reducir la complejidad del proyecto a simplemente desarrollar una app móvil con flujos conversacionales optimizados.

Después de algunas semanas y varias demostraciones con el cliente, la aplicación estaba lista y funcionando.

¿Quieres desarrollar una solución similar?

En Nimble Gravity, creamos soluciones rentables y eficientes para validar productos rápidamente. Si necesitas ayuda con un desafío similar, contáctanos.