Fale comigo computador: o controle de voz está decolando

Se pacotes inesperados começarem a aparecer à sua porta, você pode querer falar com um dos seus dispositivos inteligentes.

No início deste mês, uma criança de seis anos em Dallas perguntou a sua família Amazon eco alto-falante inteligente para uma casa de bonecas. E Alexa, assistente artificial da Amazon, como Siri, prontamente mandou um para a casa deles.

Um programa de TV de San Diego pegou a história e, inadvertidamente, repetiu quando um dos apresentadores comentou: “Eu amo a menina, dizendo 'Alexa me manda uma casa de bonecas'.” Ouvindo isso, vários outros dispositivos da Amazon em residências San Diego tentou comprar mais casas de bonecas.

Notícia de CW6 San Diego na compra acidental da casa de boneca de Alexa.

{youtube} oi2kliuljxc {/youtube}

A história pode soar muito familiar para qualquer um que tenha tentado conversar com a Siri, da Apple, ou com a Cortana, da Microsoft. Nossos dispositivos se tornaram muito bons em nos ouvir, mas isso nem sempre significa que eles entendam.

Pesquisadores da Microsoft recentemente identificaram isso como um possível problema com as interfaces de conversação de hoje: eles são comercializados como assistentes “inteligentes”, com piadas inteligentes e conhecimento do mundo, mas muitas vezes nos frustram com a falta de bom senso.


innerself assinar gráfico


Em um artigo do pequeno estudoOs pesquisadores descobriram que as pessoas que continuaram a conversar com seus assistentes digitais ao longo do tempo foram aquelas que começaram com as expectativas mais baixas.

O que uma interface de voz realmente faz?

Quando você fala com uma interface de voz, ela precisa:

  • "Ouvir" o som da sua voz e distingui-lo do ruído de fundo
  • descobrir onde cada palavra começa e termina, ignorando seus "umms" e "ahhs"
  • combinar o som de cada palavra para uma palavra no dicionário, escolhendo o caminho certo a partir do contexto, se houver homofones
  • interpretar corretamente o significado de toda a sentença
  • gerar uma resposta significativa e útil que corresponda ao seu pedido.

Cada um deles é um desafio técnico complexo e diferentes empresas de tecnologia avançaram em diferentes áreas.

O Google Now é bom em dar respostas relevantes a uma ampla gama de solicitações, pois se beneficia dos dados de pesquisa da Google sobre a Web e suas atividades pessoais, caso você use os serviços do Google.

O Amazon Echo é particularmente bom em ouvir seus pedidos em uma sala barulhenta, graças a um microfone de campo distante com cancelamento de ruído. Claro, também é bom fazer compras pela Amazon.

Nos últimos anos, as interfaces de voz tornaram-se muito melhores para entender o discurso cotidiano ou “natural” do que apenas comandos empolados e cuidadosamente redigidos. Eles ainda são melhores em lidar com consultas simples, como “quem está jogando no Aberto da Austrália?”, E tendem a lutar com pedidos mais complicados, como “quem está jogando no Aberto da Austrália pela primeira vez este ano?”, E follow-up perguntas, como "vai chover durante as finais?".

A situação é ainda mais mista para outros idiomas além do inglês: enquanto o Siri suporta mais de idiomas 40 e dialetos, até agora o Alexa está disponível apenas em inglês e alemão. Mas todos esses recursos estão melhorando constantemente.

Onde as interfaces de voz gaguejam

Então, as interfaces de voz logo assumirão toda a nossa tecnologia, como previsto no filme ELA? Gartner, uma empresa de pesquisa de tecnologia, tem previsão que no próximo ano, 30% de nossas interações com a tecnologia serão conversas com interfaces ativadas por voz.

Mas as interfaces de voz têm limitações e nem todas podem ser resolvidas por uma tecnologia melhor.

A voz é um meio central de interagir com a tecnologia no filme dela, de Spike Jonze.

{youtube} ne6p6mflbxc {/youtube}

A poluição sonora é um grande obstáculo. Seu dispositivo pode distinguir o que você está dizendo do ruído de fundo ao seu redor? A tecnologia pode ajudar com isso, incluindo redução de ruído, reconhecimento de voz personalizado e leitura labial.

Mas e o ruído de fundo que você está criando para os outros falando com o seu dispositivo inteligente? Imagine uma pessoa sentada ao seu lado no escritório - ou em um avião - conversando com Siri enquanto você está tentando ler, e você pode ver porque as interfaces de voz nem sempre são socialmente aceitáveis.

Outro conjunto de problemas vem das demandas mentais das interfaces de voz. Aprender a usar um sistema baseado em voz pode ser difícil, especialmente se não houver tela, como acontece com o Amazon Echo.

Se você já ligou para um banco ou uma companhia telefônica, você sabe que a mesquinha combinação de concentração e tédio que vem de ouvir uma voz sintetizada lista todas as suas opções enquanto você espera por aquela que você precisa e tenta não misturá-las acima. As interfaces gráficas tradicionais evitam esse problema, mostrando as opções disponíveis e permitindo que você toque rapidamente em sua escolha.

Depois de aprender comandos de voz, usá-los pode ser uma distração. Pesquisadores descobriram que os comandos de voz descarrilar sua linha de pensamento mais do que um mouse e teclado.

Isso é particularmente perigoso para interfaces de voz no carro: um par de estudos da Universidade de Utah descobriu que os motoristas distrair por até 27 segundos depois de usar comandos de voz.

Universidade de Utah / AAA Foundation for Traffic Safety pesquisa sobre distração de motorista.

{vimeo} 108281698 {/ vimeo}

Encontrando sua voz?

Portanto, é improvável que as interfaces de voz assumam o controle total, mas encontrarão nichos úteis em nossas vidas. Eles já são comuns em carros, onde esperamos que se tornem menos perturbadores à medida que a tecnologia melhora.

Na cozinha, você pode pedir ao Alexa para falar sobre uma receita ou atualizar sua lista de compras enquanto suas mãos estão ocupadas cozinhando. Na realidade virtual e aumentada, as interfaces de voz podem permitir que você controle o sistema quando você não consegue ver suas mãos.

Na aprendizagem de línguas, eles podem ser usados ​​para praticar a pronúncia. Mais importante ainda, as interfaces de voz ajudam os usuários com deficiências motoras, LER ou dislexia a superar suas deficiências.

Interfaces de voz são uma tecnologia muito esperada, e há boas razões para pensar que finalmente chegou a hora delas. Apenas lembre-se de que eles podem não ser tão inteligentes quanto parecem. E você pode querer colocar um código PIN em compras de voz se os filhos estiverem por perto.

A Conversação

Sobre o autor

Fraser Allison, PhD Candidato em Interação Humano-Computador, University of Melbourne

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.

Conteúdos relacionados

{amazonWS: searchindex = KindleStore; keywords = AmazonEcho "target =" _ blank "rel =" nofollow noopener "> InnerSelf Market e Amazon