Los modelos de lenguaje grande actuales que impulsan las interfaces de voz se basan en arquitecturas relativamente básicas, y a menudo están programados con peculiaridades artificiales—como pausas estratégicas y palabras de relleno ("um")—diseñadas para imitar la conversación humana natural. Este enfoque subutiliza lo que la tecnología de voz puede ofrecer realmente para flujos de trabajo basados en agentes.
Cuando se trata de aplicaciones profesionales serias, un modo de voz simplificado tiene sentido. Uno diseñado para la eficiencia en lugar de la charla trivial. Algo que atraviese la imitación y se centre en una comunicación precisa con los agentes de IA desbloquearía ganancias de productividad reales en la gestión automatizada de tareas y la coordinación de sistemas.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
6
Republicar
Compartir
Comentar
0/400
LayerZeroEnjoyer
· hace15h
ngl, estos asistentes de voz con IA y sus "um" y pausas realmente son un fastidio. Ya deberían haber eliminado estas cosas pretenciosas.
Ver originalesResponder0
StablecoinArbitrageur
· 01-18 18:53
Honestamente, lo de los "um" artificiales y las pausas es un diseño tan perezoso. Básicamente estás pagando un impuesto por la latencia por el teatro. Según mis pruebas retrospectivas en flujos de trabajo de ejecución de órdenes, eliminar esa tontería reduce el tiempo de respuesta en 200-300ms fácilmente; eso son puntos básicos en escenarios de alta frecuencia. Pero sí, la mayoría de los desarrolladores ni siquiera lo medirán correctamente, jaja.
Ver originalesResponder0
CexIsBad
· 01-18 18:47
Estos "um" y las pausas realmente son un fastidio, simplemente están perdiendo el tiempo.
Ver originalesResponder0
AltcoinMarathoner
· 01-18 18:42
Los agentes de voz NGL que imitan la torpeza humana son la máxima ineficiencia. Déjalos ser directos de una vez. ¿Por qué seguimos entrenando a los LLM para que digan "um" cuando en realidad podríamos estar acumulando ganancias de productividad en su lugar... ya estamos en la milla 20 de la curva de adopción y todavía estamos charlando con las máquinas lmao
Ver originalesResponder0
ContractCollector
· 01-18 18:32
Ya no aguanto esos "um" y las pausas, realmente son muy molestas. Cuando trabajo, solo quiero enviar información directamente, no estas cosas vacías.
Ver originalesResponder0
GmGmNoGn
· 01-18 18:31
Siempre he querido quejarme de esto, esas "um" y pausas realmente son insoportables, simplemente una pérdida de tiempo. En un entorno laboral, realmente no se necesita esto, ¿no sería mejor simplemente trabajar?
Los modelos de lenguaje grande actuales que impulsan las interfaces de voz se basan en arquitecturas relativamente básicas, y a menudo están programados con peculiaridades artificiales—como pausas estratégicas y palabras de relleno ("um")—diseñadas para imitar la conversación humana natural. Este enfoque subutiliza lo que la tecnología de voz puede ofrecer realmente para flujos de trabajo basados en agentes.
Cuando se trata de aplicaciones profesionales serias, un modo de voz simplificado tiene sentido. Uno diseñado para la eficiencia en lugar de la charla trivial. Algo que atraviese la imitación y se centre en una comunicación precisa con los agentes de IA desbloquearía ganancias de productividad reales en la gestión automatizada de tareas y la coordinación de sistemas.