Agente de voz con IA para restaurantes: no pierdas las reservas de noche sin ampliar tu equipo

Un agente de voz con IA para restaurantes es un sistema que contesta el teléfono de tu local con voz, entiende lo que pide quien llama —reservar, cambiar, preguntar el horario— y deja una ficha estructurada lista para tu sala o tu sistema de reservas. Sirve para lo que más duele en hostelería: en hora punta los restaurantes pierden entre el 30 % y el 40 % de las llamadas, y muchas de esas son reservas de noche y fuera de horario. Atiende el desbordamiento y la franja en la que nadie puede coger el teléfono.

¿Qué reserva pierdes exactamente cuando nadie coge el teléfono?

Son las nueve y media de un viernes. Suena el teléfono mientras el office va a tope, dos camareros están emplatando y la persona de sala tiene la mano en otro pase. Quien llama quiere mesa para ocho el sábado por la noche —una cena de grupo, ticket alto—. Nadie llega al teléfono a tiempo. La llamada se corta. Ese grupo no vuelve a marcar: llama al de al lado, que sí contesta.

Misma noche, otra llamada. Un cliente pregunta en catalán si quedan mesas. Al otro lado nadie le entiende del todo, la conversación se enreda, cuelga incómodo. No solo pierdes esa reserva: te llevas una reseña tibia que arrastras semanas.

Estas dos escenas no son anécdotas. Son el patrón de ingresos que se escapa cada noche por el mismo cuello de botella: el teléfono compite con el servicio, y el servicio gana siempre. En hora punta, los restaurantes dejan sin atender entre el 30 % y el 40 % de las llamadas (datos de mercado estadounidense: QSR Magazine 2025 sitúa la tasa de llamadas perdidas en el 32 % en la franja 17:00–20:00; Hostie AI 2024–25 registra el 36 % sobre más de 500.000 llamadas analizadas; no existen estudios equivalentes publicados para España, pero el patrón de desbordamiento en pico es estructuralmente idéntico). La mayor parte cae en la franja de noche y fuera de horario, justo donde se concentran las reservas de mayor valor.

¿No me basta con un buzón de voz o una persona más en sala?

El buzón de voz no reserva: aparca el problema hasta mañana, cuando esa mesa ya está perdida. Y poner una persona más solo para coger llamadas en pico es caro y difícil de justificar cuando el teléfono suena en ráfagas: te sobra en el valle y te falta en la cresta.

Lo que sí encaja con la realidad de una sala es atender la llamada en el momento, sin quitarle manos al servicio. Eso es lo que hace un agente de voz: contesta a la vez que tu equipo trabaja, no en lugar de él. No viene a sustituir a tu personal de sala —viene a coger las llamadas que hoy nadie puede coger—.

Si quieres el detalle de cómo funciona por dentro la captación de voz, el reconocimiento del habla y el paso de la ficha a tu sistema, lo desarrollamos en la guía de referencia cómo funciona un agente de voz con IA. Aquí vamos directos al dolor de hostelería.

¿Cómo cierra un agente de voz la fuga de reservas de un restaurante?

En la práctica, un agente de voz tapa tres agujeros concretos de un restaurante:

  • Cubre la noche y el fuera de horario. Contesta cuando la sala está en plena faena o cuando el local ya ha cerrado pero el teléfono sigue sonando. La reserva de las 23:40 para el día siguiente entra igual.
  • Absorbe el desbordamiento en pico. Cuando entran tres llamadas a la vez, no compiten por la única persona libre: el agente las atiende en paralelo y nadie se queda escuchando tono.
  • Atiende en varios idiomas. Un mismo agente puede responder en castellano, catalán, gallego o euskera. El cliente que llama en catalán deja de ser una reserva perdida y una mala reseña: se le entiende y se le reserva.

¿Y qué pasa con cada llamada? El agente identifica la intención —reservar, modificar, cancelar, preguntar— y deja una ficha estructurada con los datos: nombre, fecha, hora, número de comensales y cualquier nota. Esa ficha llega a quien la tiene que ver. En nuestros proyectos la entregamos como tarjeta a Telegram o directamente a tu sistema de reservas, según lo que ya uses.

Un apunte sobre la voz, porque suele ser la primera pregunta: en 2026 la latencia de un buen agente está por debajo de los 500 ms —en torno a 400 ms en stacks bien afinados— (referencia del sector: Vapi Speech Latency Guide, 2025–26; Twilio ConversationRelay, noviembre de 2025: mediana <500 ms, p95 <725 ms). Eso es el suelo del sector, no una ventaja: significa que la conversación fluye sin silencios raros. No te prometemos que «suene como una persona»; te prometemos que coge la llamada y la convierte en una reserva.

¿Esto funciona de verdad o son solo demos? El caso Pachamama

La pregunta justa es si esto aguanta volumen real. Lo aguanta.

Para Pachamama Group, un grupo de cinco restaurantes en Londres, montamos un agente de voz que atendía alrededor de 18.000 llamadas al mes, prácticamente 24/7, durante unos tres meses. El stack era ElevenLabs más n8n, y cada llamada acababa en una ficha enviada a Telegram para el equipo. A ese volumen, el agente sostuvo la operación sin que nadie tuviera que estar pendiente del teléfono en pico.

El caso es londinense, no español, y por honestidad lo presentamos como lo que es: una prueba de escala, no un testimonio de un restaurante de aquí. Demuestra que la arquitectura aguanta el volumen de un grupo de restauración real. La mecánica funciona igual para un local en España.

Hay una segunda parte del caso que también contamos, porque enseña más que el éxito: cerramos el proyecto. Y no por la tecnología. Lo cerramos porque OpenTable cerró su API y dejamos de poder leer y escribir las reservas en su sistema. Sin ese acceso, el agente no podía hacer su trabajo. De ahí sale la regla con la que hoy arrancamos cualquier proyecto de restauración.

¿Qué comprobamos antes de empezar? La auditoría de acceso a tus datos

Antes de firmar nada, auditamos el acceso a la API de tu TPV y de tu sistema de reservas. Necesitamos confirmar que podemos leer la disponibilidad y escribir reservas de forma estable. Si esa puerta está cerrada —como nos pasó con OpenTable—, no empezamos. Preferimos decirte que no antes de cobrarte un setup que luego se queda a medias.

Es la lección directa de Pachamama, y te la trasladamos como filtro de entrada, no como letra pequeña.

Sobre números, para que sepas si encajas: no aceptamos proyectos por debajo de 500 llamadas al mes —por debajo de ese volumen no sale a cuenta ni para ti ni para nosotros—. El setup arranca desde 3.000 €, la gestión desde 800 €/mes más un markup por minuto, y lo dejamos en marcha en 14 días.

¿Y cuándo el agente no llega? Los límites y el relevo humano

Un agente de voz no resuelve todo, y prometer lo contrario sería venderte humo. Hay llamadas que se salen del guion: una queja delicada, una petición rara, un caso que pide criterio humano. Para eso configuramos el relevo a una persona: cuando el agente detecta que no es lo suyo, escala la llamada o deja la ficha marcada para que alguien de tu equipo la retome cuanto antes.

El objetivo no es que el agente lo haga todo. Es que coja las llamadas que hoy se pierden y te pase limpio lo que de verdad necesita una persona.

¿Y la ley? Cumplimiento con el Reglamento de IA

Desde el 2 de agosto de 2026, el artículo 50 del Reglamento Europeo de IA (AI Act) obliga a avisar a quien llama de que está hablando con una IA. Por eso el agente abre siempre con una línea determinista de aviso, del tipo: «Le atiende un asistente de voz con inteligencia artificial». No es opcional ni va al final: es lo primero que se dice.

Lo dejamos cerrado de fábrica para que no dependa de la suerte. El detalle de cómo cumplimos —el aviso, las sanciones aplicables y la supervisión de AESIA en España— lo tienes en nuestra guía de cumplimiento del Reglamento Europeo de IA.

Una nota importante de contexto español: este artículo va de llamadas entrantes. En España la llamada saliente en frío a particulares está, en la práctica, fuera de juego por la normativa vigente. Nuestra propuesta es defender la llamada que ya te entra —la reserva que el cliente quiere hacer—, no perseguir a nadie. Es la ventaja honesta: tu teléfono ya suena; el problema es que no siempre lo coges a tiempo.

¿Por dónde empiezo?

Si quieres ver cómo suena tu agente antes de hablar de nada, la forma más rápida es esta:

Introduce la URL de tu restaurante y el agente de IA te llama en 3 minutos. Lo oyes contestar, reservar y dejar la ficha, con tu tipo de local en mente.

¿Prefieres llamar tú? Marca nuestro número en vivo: +34 [TODO: data-point — número de teléfono en vivo +34].

Espera la llamada de tu agente de IA en los próximos 3 minutos.

<!-- Activo ES-1. Personas sintéticas NO usadas como testimonios; el único caso real es Pachamama (Londres), presentado como prueba de escala europea, no como testimonio español. Dolor del sector descrito en términos generalizados, sin nombres ni fotos de clientes españoles. Byline = Vladimir Nagin (https://www.linkedin.com/in/vladimirnagin-ai-automation/). Requiere revisión de hablante nativo (needs_native_review: true) — localización para España, validar catalán/gallego/euskera y registro «tú»/«usted». Volúmenes de keywords pendientes de Рита. TODOs de data-point abiertos: fuente de la latencia sub-500 ms / ~400 ms; número de teléfono en vivo +34. Rango 30–40 % de llamadas perdidas en pico: atribuido a QSR Magazine 2025 (32 %, franja 17:00–20:00) y Hostie AI 2024–25 (36 %, 500.000+ llamadas) — fuentes de mercado estadounidense; se indica en el texto que no hay estudio equivalente publicado para España. Enlaces internos: es-4-como-funciona-agente-voz.md (cornerstone) y es-3-eu-ai-act-cumplimiento.md (cumplimiento) — pendientes de publicación. -->