SoftwareTutoriales

Gemini con voz: cómo funciona el modo live

En esta guía te explico cómo funciona Gemini con voz. Descubre las funciones del modo live y cómo activarlo en tu móvil

En esta guía te explico cuáles son las funciones de Gemini con voz. Te muestro cómo activar el modo Live, que se parece mucho al modo de voz avanzado de ChatGPT, y qué cosas puedes hacer con él. Además, te explico los principales controles para dominar esta herramienta que, en esencia, te permite hacer una llamada a la IA. ¡No te lo pierdas!

¿Cómo funciona Gemini con voz y su modo Live?

A menos que hayas estado totalmente desconectado, ya sabrás que herramientas como Google Gemini y ChatGPT permiten al usuario escribir peticiones en lenguaje natural. Esto es posible gracias a los grandes modelos de lenguaje, o LLM, que son el resultado de un proceso de entrenamiento basado en millones de textos. Por decirlo así, como si los modelos hubieran estado estudiando los textos humanos y, a partir de ahí, hubieran aprendido a entendernos y a escribir. Obviamente, detrás hay una serie de conceptos técnicos bastante complejos, pero la idea es esta.

Gemini con voz: cómo funciona el modo live

La cuestión es que, si a esos modelos les agregamos otras tecnologías, como la generación de voces sintéticas, aparecen funcionalidades como la de Gemini con voz. Es decir, el chatbot, en vez de escribir texto, lo que hace es hablar con el usuario de forma natural. Además de esta herramienta, también se usa una que permite transcribir lo que el usuario dice. El proceso, si lo simplificamos mucho, sería este:

  • Usuario habla en voz alta de forma natural.
  • Se emplea un servicio de transcripción para pasar lo que el usuario ha dicho a texto.
  • El modelo de lenguaje analiza el texto y genera una respuesta.
  • Gracias a la sintetización de voces, el usuario escucha la respuesta en vez de leerla.

Sin entrar en tecnicismos, ese sería el proceso que sigue Gemini con voz y su modo Live. Es exactamente la misma característica que ofrecen otros competidores, como OpenAI con su modo avanzado de voz en ChatGPT. Ahora bien, la idea principal es esta: ahora es posible hablar de forma natural con un chatbot y recibir respuestas que parecen humanas.

Gemini con voz es una funcionalidad que está disponible para todos los usuarios. No hace falta que pagues por Google One ni ninguno de sus planes premium de IA. Simplemente, necesitas descargar la aplicación de Gemini en tu dispositivo.

Pasos para activar Gemini con voz

El modo Live de Gemini está disponible para todos los usuarios. Como se trata de una función que se ejecuta en la nube, no tiene un impacto directo en el rendimiento de tu equipo. Ahora bien, es posible que Google haya limitado esta función en algunos dispositivos y que, por ese motivo, no te aparezca. Esta es solo una suposición basada en mi experiencia, aunque según la documentación oficial, solo es necesario un dispositivo Android para que funcione.

Una vez te hayas asegurado de tener Gemini instalado en tu dispositivo y de que la versión que estás ejecutando es la última, podrás acceder al modo Live de forma muy sencilla. Por ejemplo, puedes presionar el botón de apagado de tu dispositivo durante unos segundos o decir “Ok Google”, si acaso tienes configurado este último comando. Entonces, cuando aparezca Gemini en pantalla, presiona en el botón situado en la esquina inferior derecha. Es el que te señalo en esta captura de pantalla:

Gemini con voz: cómo funciona el modo liveSi es la primera vez que accedes al modo Live y no has usado Gemini con voz antes, verás una serie de advertencias. La mayoría de ellas tienen que ver con la privacidad. Ya te avanzo que, si te preocupa este tema, usar Gemini (y los chatbots en general) no es la mejor idea. También te recomiendo, aprovechando que ha salido el tema, que leas la guía que publiqué sobre seguridad y privacidad. Te ayudará a entender mejor ambos conceptos. En cualquier caso, una vez hayas superado esta pantalla, lo tendrás todo a punto para empezar a hablar con Gemini.

Gemini con voz: cómo funciona el modo live

En pantalla vas a poder ver el mensaje Toca para interrumpir a Gemini. Si crees que tienes que decirle algo a la IA porque la respuesta no es la que esperabas, simplemente presiona en esta zona. Ten en cuenta este control porque, a diferencia de lo que hace ChatGPT, no es posible interrumpir a Gemini con la voz.

Gemini con voz: cómo funciona el modo live

Adicionalmente, tal y como se aprecia en la imagen superior, dispones de la posibilidad de pausar la conversación y también de “colgar” presionando en el botón rojo. Cuando presionas en Pausa, la pantalla se vuelve negra por completo y muestra el siguiente mensaje:

Gemini con voz: cómo funciona el modo live

Otro detalle interesante es que la conversación con Gemini es equiparada por la app de Google a una llamada convencional. De este modo, como si tratara de una conversación por teléfono o por WhatsApp, aparecen los controles correspondientes en la barra de notificaciones.

Gemini con voz: cómo funciona el modo live

En esencia, si presionas en Colgar, es como si tocaras el botón rojo que te he mostrado antes. Por su parte, el botón Poner en espera equivale a pausar la conversación. Lo más interesante, en este caso, es que vas a poder utilizar tu teléfono con normalidad y, al mismo tiempo, hablar con Gemini de forma natural.

Por último, un mero recordatorio: la función Live también está disponible dentro de la aplicación de Gemini. Es decir, no es necesario que invoques al asistente con el comando “OK Google”, sino que basta con abrir la app y tocar en el botón correspondiente.

Gemini con voz: cómo funciona el modo live

Y tú, ¿estás usando Gemini con voz y el modo Live? ¿Cuáles han sido tus primeras impresiones? Déjame tu opinión más abajo. ¡Nos leemos!

Edgar Otero

Técnico de sistemas informáticos. Experto en tocar botones, instalar aplicaciones y reconfigurar mi vida digital cada cierto tiempo. Explico experimentos y otros trucos utilizando solamente un teclado.
Los datos de carácter personal que nos facilite mediante este formulario quedarán registrados en un fichero de Miguel Ángel Navas Carrera, con la finalidad de gestionar los comentarios que realizas en este blog. La legitimación se realiza a través del consentimiento del interesado. Si no se acepta no podrás comentar en este blog. Puedes consultar Política de privacidad. Puede ejercitar los derechos de acceso, rectificación, cancelación y oposición en info@profesionalreview.com
Botón volver arriba