Reconhecimento de voz: para que isto nos interessa?

Valor Amazônico 20 de novembro de 202015 de novembro de 2021 Antonio Siemsen Munhoz, Antropomórficas, Informação, Reconhecimento de voz, Tecnologia, Tecnologia e Inovação, Valor Amazônico

Por Antônio Siemsen Munhoz

Vivemos na sociedade do espetáculo e, certamente, seria de se esperar que todas as características antropomórficas fossem utilizadas, com o uso de diversas tecnologias, que se apresentam cada vez mais evoluídas. Isto realmente acontece e passa, para além da curiosidade, adquirir conhecimento sobre como ocorre esta utilização. Em algum momento tal conhecimento poderá ser de grande utilidade.

O reconhecimento de voz

Quando analisamos o assunto, diferentes pontos de vista podem direcionar os estudos, cada um deles de acordo com o interesse das pessoas. Aqui e agora o que nos interessa é saber sobre sua utilização e utilidade. O primeiro dos atalhos que podemos tomar, dentre todos os que podem nos levar até Roma, estão os filmes de ação e espionagem, e da lembrança de alguém que há pouco nos deixou[1], nos quais o acesso à alguma informação, era obtido com o uso de palavras-chave. Elas poderiam exigir o uso de tecnologias de menor ou maior complexidade, para serem acessadas por pessoas não autorizadas, levando nosso senso crítico para mais próximo do rigor científico.

O reconhecimento de padrões

A atividade de reconhecimento de voz está apoiada em um processo determinado como reconhecimento de padrões que pode, por sua vez, também ser desenvolvida via o uso de diferentes técnicas. Lembre-se dos chatbots e do quanto você ficava aborrecido quando uma voz com toque de veludo lhe solicitava: “agora, escolha a opção desejada?”. A vontade era desligar imediatamente seu celular ou outro dispositivo qualquer. Este é um dos muitos exemplos que podem ser utilizados para que você possa compreender e formar sua própria conceituação sobre o assunto.

O resultado tem acesso facilitado e o reconhecimento quase imediato do som emitido por sua voz. Uma pequena brincadeira facilita a construção de nosso raciocínio. Você e alguns colegas podem se reunir em frente a um computador fazer com que ele “ouça uma música. Com os dados coletados diversas tentativas podem ser efetuadas no sentido de identificar o cantor responsável pelo sucesso. O computador pode identificar uma série de semelhanças (guardadas na memória do computador, como padrões) e ter um bom percentual de acertos no desenvolvimento da atividade.

A partir daí é fácil compreender o reconhecimento de voz. Existe uma base de dados no qual são armazenados diferentes padrões identificáveis na voz de uma pessoa. Todos estes dados estão digitalizados e a atividade se resume em um comparativo da voz captada com os dados que estão armazenados. A capacidade do computador em executar, em tempos cada vez menores, um grande número de padrões aumenta o volume de acertos, nesta atividade identificado como 100%, nos casos mais importantes. O processo é simples, ainda que a tecnologia envolvida seja complexa.

Desta forma palavras, frases e períodos podem ser identificados pelo computador que, então, responde com alguma ação a ser desenvolvida. A maior ou menor capacidade de acerto depende de o vocabulário ser mais ou menos restrito, com um volume crescente de padrões armazenados.

Para que serve tudo isto?

Em resumo, para identificar, baseado em características, transformadas em padrões digitalizados, diferentes atividades com finalidades diversas e variadas. Estas atividades podem representar a facilidade de um instalação de Bots para simular ações humanas (com alta aplicação em marketing virtual), atendimentos eletrônicos, além de aplicações que adaptam padrões ao som da voz humana desenvolvidos, por exemplo, de forma a bloquear ou liberar acesso à informações específicas, entrada de pessoas ou uma simples associação de padrões de vozes a atividades a serem desenvolvidas.

Dificuldades Elas são associadas aos classificadores, nome que recebem os programas receptores da entrada e transformação destas entradas em padrões relacionados com atividades específicas. A fala contínua é o exemplo mais comum, imediatamente seguido por dificuldades de linguagens devido a dialetos ou homônimos. Tais dificuldades devem ser brevemente superadas considerando os elevados investimentos em pesquisas nesta área. Elas estão em uma fase de crescimento e trazem a promessa de recompensa a quem sabe o que significa a atividade de reconhecimento de vozes. Elas são consideradas pesquisas que irão revolucionar diversas tecnologias atualmente vigentes.

[1] O texto se refere ao falecimento do ator Sean Connery, o primeiro 007 do cinema

Antonio Siemsen Munhoz é Doutor em Engenharia de Produção, Bacharel em Engenharia Civil, Especialista em Tecnologias Educacionais, Pós-graduado em Gestão Eletrônica de Documentos, com MBA em Design Thinking