Cómo funciona un agente de voz con IA y para qué negocios sí (y para cuáles no)
Un agente de voz con IA es un programa que atiende las llamadas de tu negocio, entiende lo que dice quien llama, clasifica el motivo —reserva, cancelación, objeto perdido, proveedor, pregunta— y deja una tarjeta estructurada en el sistema o el chat de tu equipo, las 24 horas. Funciona en tiempo real: en 2026 la latencia voz a voz baja de los 500 ms (ElevenLabs ConvAI v2, ~400 ms), así que la conversación fluye. No es un robot de menús; es un recepcionista digital que enruta y registra cada llamada.
Son las 21:40. Suena el teléfono de tu restaurante en plena hora punta, pero los tres del turno están emplatando y nadie puede cogerlo. Quien llamaba quería una mesa para ocho el sábado. No deja mensaje: llama al siguiente sitio. Esa llamada perdida no aparece en ninguna hoja de cálculo, pero la facturación del sábado ya es menor. Aquí es donde un agente de voz cambia las cuentas: coge la llamada que tu equipo no puede coger.
¿Qué es exactamente un agente de voz con IA?
No es una centralita con menús de teclas («pulse 1 para reservas»). Es un sistema conversacional que escucha lenguaje natural, responde con voz sintética de calidad y, sobre todo, hace algo con lo que oye. La diferencia está en el último paso: un buzón de voz guarda audio que alguien tendrá que escuchar mañana; un agente de voz convierte la llamada en un dato accionable en el momento.
Esa baja latencia de la que todo el mundo habla —por debajo de 500 ms— es hoy el suelo del sector, no una ventaja competitiva. Lo doy por hecho. Lo que de verdad importa no es que «suene natural», sino qué pasa después de colgar: dónde aterriza la información, quién la recibe y con qué fiabilidad.
¿Cómo funciona, paso a paso?
El recorrido de una llamada tiene cinco fases, y cada una es un punto donde algo puede salir bien o mal:
- Atiende. El agente coge la llamada al primer tono, normalmente las que desbordan a tu equipo o las que entran fuera de horario. Lo primero que dice no lo decide el modelo: es una línea fija de apertura (volveremos a esto en la parte de cumplimiento).
- Reconoce la voz. Transcribe en tiempo real lo que dice la persona, con tolerancia a ruido de fondo, acentos y frases a medias.
- Clasifica la intención. Decide de qué va la llamada: ¿es una reserva, una cancelación, un objeto perdido, un proveedor, una pregunta general? Esta clasificación es el cerebro del sistema.
- Enruta. Según la intención, el agente actúa: confirma una reserva existente, recoge los datos, o deriva a una persona cuando la consulta se sale de su guion.
- Deja una tarjeta estructurada. El cierre. En lugar de un audio que nadie escucha, tu equipo recibe una ficha: «Mesa para 8, sábado 21:00, a nombre de Marta, teléfono +34…, alergia a frutos secos». Esa tarjeta llega al canal que ya usáis —por ejemplo, un grupo de Telegram— lista para accionar.
El stack que usamos para esto combina un motor de voz (ElevenLabs) con un orquestador (n8n) que conecta la conversación con tus sistemas y entrega la tarjeta. La voz es la parte visible; la fontanería que enruta y registra es donde está el valor real.
¿Por qué en España vendemos la llamada entrante y no la saliente?
Aquí hay una decisión honesta que conviene explicar, porque mucha gente llega esperando «una IA que llame a clientes potenciales». En España, eso no lo hacemos. La llamada comercial en frío a consumidores está, en la práctica, muerta y, en buena parte, prohibida:
- La Circular 1/2023 de la AEPD exige consentimiento previo (opt-in) para el marketing telefónico.
- La Orden TDF/149/2025 prohíbe las llamadas comerciales desde numeración móvil desde el 7 de junio de 2025.
- Hay que cotejar de forma obligatoria contra la Lista Robinson, el consentimiento caduca a los 24 meses, y un contrato cerrado por una llamada no solicitada puede ser nulo.
Por eso nuestro posicionamiento en España es inbound-first: trabajamos la llamada entrante. Y esto no es una limitación que disimulamos, es una ventaja: la llamada entrante es la que ya quiere hablar contigo. Es alguien que ha decidido marcar tu número porque tiene una intención —reservar, preguntar, comprar—. Atender el 100% de esas llamadas vale más que perseguir a quien no te ha pedido nada.
¿Y la llamada saliente? Sí la hacemos, pero solo en un caso claro: confirmar citas o reservas de clientes que ya tienes, como ejecución de un contrato existente (art. 6.1.b del RGPD), con numeración geográfica o 800/900 y con el aviso de IA correspondiente. En frío, a consumidores, no. Si alguien te promete eso en España, pregúntale por la Orden TDF/149/2025.
Hay un punto de dolor que el inbound-first resuelve especialmente bien aquí: el multilingüismo. En hostelería y recepción, atender en catalán, gallego o euskera —además de en castellano e inglés— es un problema real de plantilla. Un agente de voz no se cansa de cambiar de idioma a media frase.
El caso Pachamama: 18.000 llamadas al mes (y por qué se cerró)
La prueba más honesta que tenemos es europea, y sirve perfectamente para España. Pachamama Group, un grupo de cinco restaurantes en Londres, puso en marcha un agente de voz que atendió unas 18.000 llamadas al mes durante cerca de tres meses, 24/7.
El stack era el que describo arriba: ElevenLabs para la voz, n8n para la orquestación, y tarjetas estructuradas a un grupo de Telegram. El agente cogía el desbordamiento, clasificaba la intención —reserva, cancelación, objeto perdido, proveedor, pregunta— y dejaba una ficha lista para el equipo.
Y aquí viene la parte que no me callo: el proyecto se cerró. No por la tecnología —el agente funcionaba—, sino porque OpenTable Londres cerró el acceso a su API de reservas. Sin esa conexión en tiempo real, el agente perdió la visibilidad de las mesas y dejó de poder hacer su trabajo con fiabilidad.
Esa lección está ahora integrada en cómo trabajamos: antes de firmar, auditamos el acceso a tu API (TPV, PMS, CRM, sistema de reservas). Si está cerrada o no podemos integrarnos en tiempo real, te lo decimos y no empezamos. Prefiero perder un contrato que montar algo que se va a romper cuando un proveedor cambie de política.
¿En qué sectores hay más llamadas perdidas?
El problema —llamadas que entran y nadie coge— se repite, con cifras distintas, en cinco verticales donde el agente de voz tiene sentido:
- Restaurantes: entre el 30% y el 40% de las llamadas se pierden en hora punta. Justo cuando más vale una reserva, es cuando menos puedes cogerla.
- Clínicas dentales: alrededor del 33% de las llamadas quedan sin atender (benchmark Arini), con un 25–30% de ausencias a cita y una tasa de rotación de recepción que según DentalPost ronda el 40% anual. El teléfono nunca está cubierto del todo.
- Servicios (climatización, fontanería): entre el 25% y el 40% de las llamadas entran fuera de horario, y una llamada perdida cuesta entre 350 y 1.200 $ en trabajo no facturado.
- Escuelas y formación online: el tiempo medio de respuesta a un lead es de 47 horas, frente a los menos de 60 segundos que marcan la diferencia —responder en ese primer minuto supone un incremento de conversión del 391%—, y el 93% de los leads ni siquiera entra en la ventana crítica de los 5 minutos.
En todos ellos, el patrón es el mismo: la demanda llama, y la capacidad humana de atender el teléfono tiene un techo. El agente de voz levanta ese techo.
¿Dónde aporta la IA, dónde no, y dónde añade trabajo?
Esta es la parte que casi nadie te cuenta, y por eso la pongo entera. Un agente de voz no es magia uniforme: hace tres cosas muy distintas según el caso.
Dónde la IA SÍ aporta valor claro. En el volumen repetitivo y estructurado: coger la llamada número 200 del día con la misma paciencia que la primera, a las 22:30 o en domingo, en varios idiomas, y dejar la información ordenada. Atender el desbordamiento, clasificar intención y registrar datos limpios. Aquí gana sin discusión.
Dónde la IA NO aporta (o estorba). En la conversación con matiz emocional alto, en la negociación, en el caso clínico o legal que requiere criterio humano, y en cualquier decisión que dependa de contexto que el sistema no tiene. Ahí el agente debe reconocer su límite y derivar a una persona —no improvisar—. Una IA que finge saber lo que no sabe es peor que un buzón de voz.
Dónde la IA AÑADE trabajo. Esto es honesto: integrar bien un agente de voz no es enchufar y listo. Hay que mapear tus flujos, conectar tus sistemas, escribir y afinar los guiones de intención, y mantenerlo cuando cambian tus procesos o tu carta. Es un proyecto, con onboarding. Si alguien te lo vende como instalación de cinco minutos, te está vendiendo algo que no funcionará.
¿Para qué negocios decimos que NO?
Decir que no es parte del trabajo. No aceptamos un proyecto cuando:
- Tienes menos de 500 llamadas al mes. Por debajo de ese volumen, las cuentas no salen ni para ti ni para nosotros.
- Tu fuente de datos está cerrada. Si el sistema de reservas, el TPV o el CRM no nos deja integrarnos en tiempo real (la lección Pachamama), no empezamos.
- Quieres llamada en frío B2C. En España no la hacemos, por lo que ya hemos explicado.
- Tu sector está fuera de los cinco donde sabemos que funciona. Preferimos ser buenos en lo que conocemos.
- Buscas solo infraestructura por minuto, sin acompañamiento. No vendemos minutos sueltos de autoservicio.
- No quieres onboarding. Sin la fase de integración y ajuste, el resultado es malo, y eso te perjudica a ti y a nuestra reputación.
Para que las cuentas estén sobre la mesa: el setup parte de 3.000 €, la gestión desde 800 €/mes más un markup por minuto, y lo ponemos en marcha en 14 días (28 en proyectos enterprise).
¿Qué dice la ley sobre avisar de que es una IA?
Una regla, clara y obligatoria. Desde el 2 de agosto de 2026, el artículo 50 del Reglamento Europeo de IA (AI Act) exige avisar a la persona de que está hablando con una IA en el primer contacto. Por eso la primera frase del agente no la genera el modelo: es una línea de apertura determinista, fija, que siempre suena igual:
«Está usted hablando con un asistente virtual de [tu negocio]…»
El incumplimiento del artículo 50 (transparencia) puede acarrear multas de hasta 15 M€ o el 3% de la facturación —no hay que confundirlo con el artículo 5, de prácticas prohibidas, que llega hasta 35 M€ o el 7%—. En España, el supervisor es la AESIA. Tratamos el cumplimiento como parte del producto, no como letra pequeña; lo detallamos en nuestra guía dedicada al AI Act.
Pruébalo: deja que el agente te llame
La mejor forma de entender cómo suena y cómo enruta una llamada es oírlo con tu propio caso.
Introduce la URL de tu negocio y el agente de IA te llama en 3 minutos. Verás en directo cómo atiende, cómo clasifica lo que dices y cómo deja la tarjeta estructurada. Espera la llamada de tu agente IA en los próximos 3 minutos.
¿Prefieres llamar tú? Marca nuestro número en vivo (+34 [TODO: data-point]) y habla con el agente ahora mismo.
Y si tu negocio entra en uno de los casos donde decimos que no, también te lo diremos en esa misma conversación. Es más barato para los dos.
<!-- activo ES-4 (cornerstone-lite ES); personas sintéticas NO usadas como testimonios; byline=Vladimir Nagin; requiere revisión de hablante nativo; volúmenes de keywords pendientes de validación por Рита -->