¿Cuántas formas hay de describir la imagen que acompaña este texto? ¿Crees que serías capaz de hacerlo de forma que yo la pudiera apreciar?
–
Las interfaces conversacionales se presentan en dos formatos principales: unimodales, que utilizan un único canal de comunicación (solo voz o solo texto), y multimodales, que combinan ambos. Cada una tiene sus particularidades y se adapta de manera diferente al contexto que rodea al usuario.
Las interfaces de solo texto son discretas y permiten revisar la información con facilidad. Algo clave para la privacidad del usuario. En un entorno público, como un autobús o una oficina compartida, interactuar mediante texto permite al usuario mantener su conversación privada, sin exponer a terceros el contenido de sus consultas o las respuestas del sistema. Sin embargo, la entrada de información suele ser más lenta al requerir la escritura. Además, para tareas complejas o con gran cantidad de texto, la carga cognitiva puede ser alta.
Por otro lado, las interfaces de solo voz ofrecen rapidez y la posibilidad de operar con las manos libres. Pero presentan importantes limitaciones que penalizan ciertos escenarios. La información hablada es inherentemente transitoria, lo que dificulta su revisión y retención, especialmente cuando se trata de datos complejos o extensos. Imagina que un amigo te cuenta los detalles de su último viaje; la historia oral es agradable, pero si quiere mostrarte la belleza de un paisaje o el detalle de un edificio, lo natural es que te enseñe una fotografía. La imagen complementa y enriquece el relato. Además, lo que él entiendo por una palabra puede ser diferente de la imagen que proyecto en tu mente. De la misma forma, la interfaz de voz, aunque rápida, a menudo penaliza la comprensión profunda y la capacidad de consulta. Por eso los profesores se apoyan en diapositivas y gráficos cuando explican una lección. Además, estas interfaces son susceptibles a errores de reconocimiento de voz (ASR) y se ven afectadas por el ruido ambiental. Esto significa que pueden tener dificultades para entender a diferentes personas, acentos o en entornos ruidosos. Por último, no son adecuadas para personas con discapacidades auditivas o del habla, y su discreción es baja, lo que puede ser un inconveniente significativo en lugares públicos o situaciones que requieren confidencialidad. El contexto del usuario es aquí fundamental: hablar en voz alta en un espacio concurrido puede ser inapropiado o imposible, forzando al usuario a buscar alternativas.
Aquí es donde las interfaces multimodales voz-texto-imagen demuestran su verdadero potencial. Ofrecen flexibilidad al permitir a los usuarios elegir la modalidad más conveniente según la tarea o el contexto. Reducen la carga cognitiva al distribuir la información entre el procesamiento auditivo y visual. Esto es crucial para tareas complejas, donde el usuario puede apoyarse en el texto para revisar detalles mientras utiliza la voz para comandos rápidos. También mejoran la precisión al permitir que la voz y el texto se refuercen mutuamente, ayudando a desambiguar comandos o consultas. Además, ofrecen una mayor riqueza expresiva y contextual, combinando el tono y la emoción de la voz con las capacidades visuales y de formato del texto. Finalmente, amplían significativamente la accesibilidad, ya que atienden a una gama más amplia de necesidades al permitir la combinación o elección de modos. Esta flexibilidad multimodal permite al usuario navegar por los diferentes escenarios de su día a día, adaptando la interacción a las condiciones ambientales y sus propias preferencias de privacidad.
–
No es voz o texto. No es hacer una transcripción de lo que te están diciendo, ni que te lean un texto. Es integrar los dos canales, cada uno aportando cosas diferentes para mejorar la experiencia. Del mismo modo que un profesor muestra una diapositiva a sus alumnos o un amigo una foto de su último viaje.
–
Sígueme en LinkedIn para estar al tanto de nuevas publicaciones.
–

Deja una respuesta