Soluciones conversacionales. ¿Cómo trabajar la entrada y salida de información para la mejor experiencia?

Las empresas están cada vez más preocupadas por mejorar la comunicación con el cliente y dar el mejor servicio, pero sin incurrir en costes difíciles de asumir.

13 Oct 2022

Por eso, es cada vez más común utilizar soluciones conversacionales en canales como Contact Centers, aplicaciones de mensajería como WhatsApp, páginas web, redes sociales, etc. Para que estas soluciones conversacionales tengan éxito, sean rentables y ofrezcan una experiencia realmente buena a los clientes habrá que tener en cuenta una serie de puntos: cuál es el input, cómo debe ser la respuesta, qué nivel entendimiento se necesita para comprender lo que pregunta el usuario, en qué punto es necesaria la intervención humana, etc. A continuación, vamos a ver algunos de los aspectos principales que se deben tener en cuenta al diseñar una solución conversacional.

Diferentes formas de entrada de información

Las interacciones de un usuario con un agente conversacional pueden ser orales o escritas. Es importante tener claro este punto desde el diseño de la solución, ya que influirá en la metodología y los pasos a llevar a cabo.

En una fase de Discovery con la compañía se definen las necesidades comunicativas, la solución conversacional más idónea y los objetivos de la misma. Es muy importante en este contexto analizar las variables oral-escrito, pero también los canales de comunicación (llamada telefónica, mensaje de texto en WhatsApp, interacción en RRSS, correos electrónicos, etc.). La combinación de estos parámetros es la que condiciona el diseño de unos flujos conversacionales óptimos que solucionen problemas reales y garanticen una interacción fluida.

Cuando el input de un Bot es oral tenemos que tener en cuenta un paso más para la comprensión, y es que habrá que convertir una cadena de sonidos en los textos que los representan. Esta conversión es lo que se conoce como STT (Speech to Text). Los sistemas de STT son una interfaz entre las personas y el modelo de procesamiento de lenguaje natural que se ocupa del entendimiento del contenido expresado por el usuario del bot. Para el paso de voz a texto es preciso trabajar en el desarrollo de un modelo acústico y un modelo de lenguaje. En el primero se representan estadísticamente los sonidos del lenguaje que se deben reconocer y a partir de un modelo probabilístico se asocian a los fonemas (unidad abstracta que representa a cada sonido) de una lengua dada. Para ello, es preciso dar entrada a todas las manifestaciones posibles de los sonidos (e incluir, por ejemplo, los diferentes acentos) para garantizar la correcta comprensión de un abanico amplio de hablantes. En el modelo de lenguaje se representa la probabilidad estadística en la que los sonidos almacenados en el modelo acústico pueden ocurrir en las palabras. A partir del modelo de lenguaje definido, los sistemas de reconocimiento del habla (ASR, Automatic Speech Recognition) unen los fonemas y transcriben los sonidos al correspondiente texto.

Desde VASS tenemos experiencia en haber evaluado los diferentes modelos de STT que existen en el mercado dentro del diseño y desarrollo de diferentes soluciones conversacionales. La experiencia nos ha mostrado que el canal oral debe ser tratado por perfiles especializados como son los lingüistas con formación en fonética y fonología o ingenieros con experiencia en el tratamiento acústico de la información, ya que una incorrecta transcripción de los inputs orales a sus correspondientes manifestaciones escritas conllevará una problemática adicional en la fase de comprensión de los textos. Es importante trabajar en el enriquecimiento de los modelos de lenguaje, sobre todo en el caso de sectores y empresas en los que se utilice una terminología muy concreta, imaginemos la jerga bancaria o de seguros, con nombres de productos muy específicos.

Herramientas para la mejor comprensión de la solución conversacional

Más allá de los flujos que se diseñen y el tipo de información de entrada, la materia prima de un Bot condiciona la metodología de entrenamiento del modelo cognitivo que garantizará la correcta comprensión de los inputs. No es lo mismo hacer un entrenamiento de un ChatBot con un flujo dirigido que se implementará en WhatsApp que entrenar un VoiceBot que se implementará en el canal de atención telefónica de una compañía. En el caso de las soluciones de voz, una vez que se han podido salvar los hándicaps relacionados con el paso de voz a texto, el punto de partida es el mismo que en el caso de los ChatBots.

El proceso de entendimiento que permite que un Bot responda con inteligencia y con sentido tiene que tener en cuenta las intenciones comunicativas del usuario y el entrenamiento del modelo.

Es preciso identificar las intenciones comunicativas (también denominadas intents) que tienen los usuarios, que no son más que sus necesidades conversacionales unidas a todas las necesarias para ir orquestando la conversación.

A continuación, es preciso trabajar en el diseño de un buen conjunto de entrenamientos que garanticen una buena cobertura del modelo. En todas las lenguas del mundo, la relación entre los sentidos (el significado, el contenido que se quiere expresar) y los textos (las variantes utilizadas para expresar el contenido) es múltiple. Es por ello, que para que un Bot entienda al usuario tiene que existir una fase de definir las formas que potencialmente puede tener ese usuario a la hora de expresar sus necesidades comunicativas. El definir todas estas formas no implica que todas ellas deban ser incluidas en el modelo de aprendizaje en el que se basa el entendimiento de la solución, por el contrario, la selección de las más representativas es lo que garantiza un buen entrenamiento del modelo y evita en el futuro el sobreentrenamiento y los consiguientes problemas de precisión, que no son más que ambigüedades en el modelo, casos en los que una determinada variante está a caballo entre dos intents diferentes.

¿Y cómo devolverá la información la solución conversacional?

Una vez hemos definido cómo será el input de información, tendremos que centrarnos en el output. ¿Cómo se devolverá la información al usuario? ¿En texto o en sonido?

Cuando hablamos de dar respuesta en texto, nos referimos a distintas variantes y no solo a texto plano. Así, la solución conversacional podrá devolver la respuesta en formatos como:

· Texto redactado, siguiendo la imagen corporativa y el tono establecido por la empresa (aquí intervendrían personas especializadas del equipo, con amplio conocimiento de Copywriting) o texto plano, como por ejemplo, un extracto literal de la página web.

· Vídeo pregrabado en el que por ejemplo, se resuelven dudas. Así, una empresa podría grabar vídeos respondiendo algunas de las preguntas más frecuentes de usuarios o empleados. Además, esta opción transmite un trato más humano y puede ser muy útil para dar ciertas explicaciones.

· Imágenes, infografías, GIF u otro tipo de documentos

· URLs que dirigen a diferentes lugares de la web o aplicación, en los que el usuario podrá encontrar una respuesta mucho más elaborada a su pregunta (en estos casos se abandona parcialmente el flujo de la conversación).

La segunda opción serán las respuestas en sonido, algo más complejas. Para lograr esto, es preciso recurrir a un modelo Text to Speech (TTS) para convertir el texto en sonido.

Es importante determinar si la empresa necesita una voz más o menos personalizada. Si se utiliza la voz de un modelo del mercado esta será la misma utilizada por muchas otras. Es la solución más rápida y económica que puede conllevar determinadas adaptaciones. Es necesario tener en cuenta que si la misma empresa ya ha utilizado algún otro servicio de STT en el pasado (como por ejemplo, para la atención telefónica en su Contact Center) sería conveniente trabajar con el mismo modelo o incluso realizar la correspondiente migración para que el usuario final no tuviese una mala experiencia.

Las compañías que quieran tener una voz propia, acorde con su imagen de marca y reconocible por el consumidor, se enfrentarían a proyectos de STT más sofisticados, pero dispondrían de un canal personalizado y una acercamiento al cliente a partir de una identidad propia.

En estos casos se selecciona un locutor con la voz que queremos asociar a la marca. Esta persona tendrá que grabar un corpus representativo en estudio. La división de ese corpus en las unidades mínimas de sonido y el modelo de aprendizaje automático crearán mensajes orales dinámicos. Esta opción implica un trabajo minucioso y muchas horas de grabación, por lo que cada empresa deberá decidir si le compensa este nivel de personalización o prefiere optar por una solución conversacional con respuesta estándar.

Otros factores que determinan distintos tipos de soluciones conversacionales

Además de los aspectos anteriores, el diseño de una solución conversacional dependerá también del tipo de solución que se busque, que puede ser más o menos lineal y con un mayor o menor componente de Inteligencia Artificial. También variará según el uso que se le vaya a dar a la solución conversacional, que puede ser simplemente informativo, transaccional, o integrado con servicios de la compañía que permiten realizar acciones determinadas. Sobre todo esto hablaremos en un segundo artículo, para comprender qué tipo de solución conversacional necesita cada cliente.

Por eso, es cada vez más común utilizar soluciones conversacionales en canales como Contact Centers, aplicaciones de mensajería como WhatsApp, páginas web, redes sociales, etc.