Entrada de áudio para texto via Google Speech to Text

Primeira página > Programação > Entrada de áudio para texto via Google Speech to Text

Entrada de áudio para texto via Google Speech to Text

Publicado em 01/11/2024

Navegar:392

Audio to Text Input via Google Speech to Text

Neste artigo, examinaremos os seguintes tópicos

navigator.mediaDevices.getUserMedia API do navegador
API do Google Speech para texto

começaremos criando um gancho de reação que fará todas as coisas como startRecording, stopRecording, criação de Audio Blob, tratamento de erros, etc.

Há algumas outras coisas para cuidar antes de entrarmos na carne do anzol

const VOICE_MIN_DECIBELS = -35 const DELAY_BETWEEN_DIALOGUE = 2000

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

Vamos nomear nosso gancho como useAudioInput.ts, estaríamos usando APIs do navegador como navigator.mediaDevices.getUserMedia, MediaRecorder e AudioContext. AudioContext nos ajudará a identificar se o áudio de entrada é superior ao decibel mínimo necessário para ser considerado como entrada, então começaríamos com as seguintes variáveis e adereços

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

No código acima, usaríamos mediaChunks como variável para armazenar o blob de entrada e mediaRecorder para ter uma instância do novo MediaRecorder que recebe o stream como entrada de navigator.mediaDevices.getUserMedia. A seguir, vamos cuidar dos casos em que getUserMedia não está disponível

... useEffect(() => { if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) { const notAvailable = new Error('Seu navegador não suporta entrada de áudio') setError(notAvailable) } },[]); ...

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

começaremos a escrever a funcionalidade real do gancho, que consistirá em várias funções como setupMediaRecorder, setupAudioContext, onRecordingStart, onRecordingActive, startRecording, stopRecording etc.

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

com o código acima estamos quase terminando o gancho, a única coisa pendente é identificar se o usuário parou de falar ou não, usaríamos DELAY_BETWEEN_DIALOGUE como o tempo que esperaríamos, caso não haja entrada para 2 segundos, assumiremos que o usuário parou de falar e atingirá o endpoint de fala para texto.

... const detectarSom = ({ gravação, analisador, comprimento do buffer, domínioDados }: { gravação: booleano analisador: AnalyserNode comprimento do buffer: número dados de domínio: Uint8Array }) => { deixe lastDetectedTime = performance.now(); deixe anySoundDetected = falso; const cálculo = () => { if (!gravação) { retornar; } const currentTime = performance.now(); const timeBetweenTwoDialog = anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE; if (timeBetweenTwoDialog) { stopRecording(); retornar; } analisador.getByteFrequencyData(domainData); for (seja i = 0; i 0) { anySoundDetected = verdadeiro; lastDetectedTime = performance.now(); } } requestId = window.requestAnimationFrame(compute); }; calcular(); } ... const startRecording=async()=>{ ... detectarSom() ... }

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

no código acima estamos usando requestAnimationFrame para detectar a entrada de áudio do usuário, com isso concluímos o gancho e agora podemos começar a usá-lo em vários lugares.

por exemplo

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

A segunda parte é conectar um servidor de nó que possa se comunicar com o Google Speech para a API de texto. Anexei a documentação que mencionei ao criar o lado do nó.

https://codelabs.developers.google.com/codelabs/cloud-speech-text-node.

// servidor de nó de demonstração que se conecta com o Google Speech ao endpoint da API de texto const expresso = requer('expresso'); const cors = require('cors'); const discurso = require('@google-cloud/speech'); cliente const = novo discurso.SpeechClient(); função assíncrona convert(audioBlob) { solicitação constante = { configuração: { encoding: 'WEBM_OPUS', // Certifique-se de que corresponde ao formato do áudio que está sendo enviado sampleRateHertz: 48000, // Deve corresponder à taxa de amostragem da sua gravação código do idioma: 'en-US' }, áudio: { conteúdo: audioBlob } }; const [resposta] = aguardar client.recognize(request); transcrição const = resposta.resultados .map(resultado => resultado.alternativas[0].transcrição) .juntar('\n'); transcrição de retorno; } const app=express(); app.use(cors()) app.use(express.json()); app.post('/upload', express.raw({ tipo: '*/*' }), async (req, res) => { const audioBlob = req.body; resposta const = aguardar conversão (audioBlob); res.json(resposta); }); app.listen(4000,'0.0.0.0', () => { console.log('Exemplo de aplicativo escutando na porta 4000!'); });

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

neste artigo, abordei o envio de conteúdo de áudio ou blob para o endpoint de texto do Google Speech, também podemos enviar um uri de blob em vez de conteúdo, a única alteração será a carga útil

// enviando url como parte do objeto de áudio para fala para API de texto ... áudio: {url: audioUrl} ou áudio: {content: audioBlob} ...

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

O código relacionado ao artigo está presente no Github.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/shubhadip/audio-to-text-input-via-google-speech-to-text-4ob0?1 Se houver alguma violação, entre em contato com [email protected] para excluí-lo

Tutorial mais recente Mais>

Como mesclar colunas de ano e quarto em uma coluna periódica em pandas?
colunas concatenas para uma nova coluna de período Declaração de problemas: considera um panda dataframe com colunas denominadas "ano...

Programação Postado em 2025-05-05
Método JavaScript para calcular o número de dias entre duas datas
Como calcular a diferença entre as datas em javascript ao tentar determinar a diferença entre duas datas em Javascly, capturadas, esta solução...

Programação Postado em 2025-05-05
Como implementar eventos personalizados usando o padrão de observador em Java?
criando eventos personalizados em java eventos personalizados são indispensáveis em muitos cenários de programação, permitindo que os componen...

Programação Postado em 2025-05-05
Métodos de acesso e gerenciamento de variáveis de ambiente python
Acessando variáveis de ambiente em python para acessar variáveis de ambiente em python, utilizar o os.envon objeto, que representa um am...

Programação Postado em 2025-05-05
Como o mapa de Java. ENTRY e Simpleentry simplificam o gerenciamento de pares de valores-chave?
Uma coleção abrangente para pares de valores: introduzindo o mapa de java.Entry e o Simpleentry em java, ao definir uma coleção em que cada el...

Programação Postado em 2025-05-05
Como exibir corretamente a data e a hora atuais em formato "dd/mm/yyyy hh: mm: ss.ss" em java?
como exibir a data e a hora atuais em "dd/mm/yyyy hh: mm: ss.ss" formato no código java fornecido, o problema com a exibição da data...

Programação Postado em 2025-05-05
Guia de criação de páginas de 404 de 404 da FASTAPI
Página 404 personalizada não encontrada com fastapi para criar uma página 404 personalizada não encontrada, o FASTAPI oferece várias abordagen...

Programação Postado em 2025-05-05
O despertador falso realmente acontecerá em Java?
SPEURY WAWUPS em java: realidade ou mito? O conceito de despertars espúrias na sincronização de Java tem sido um assunto de discussão há algum t...

Programação Postado em 2025-05-05
Existe uma diferença de desempenho entre usar um loop for-Each e um iterador para travessia de coleção em Java?
para cada loop vs. iterator: eficiência na coleção Traversal Introduction quando travessing uma coleção em java, the ARIDES quando trave...

Programação Postado em 2025-05-05
Quando usar "tente" em vez de "se" para detectar valores variáveis no python?
usando "Try" vs. "se" para testar o valor da variável no python no python, há situações em que você pode precisar verificar ...

Programação Postado em 2025-05-05
Como posso criar com eficiência dicionários usando a compreensão do Python?
Python Dictionary Compreension Em Python, as compreensões do dicionário oferecem uma maneira concisa de gerar novos dicionários. Embora sejam se...

Programação Postado em 2025-05-05
$Por que estou recebendo um erro "Class \ 'Ziparchive \' não encontrado \" depois de instalar o Archive_zip no meu servidor Linux?$
Por que estou recebendo um erro "Class \ 'Ziparchive \' não encontrado \" depois de instalar o Archive_zip no meu servidor Linux?
classe 'ziparchive' não encontrou erro ao instalar Archive_zip no servidor Linux sintoma: quando o script de script que utiliza o zi...

Programação Postado em 2025-05-05
Qual método para declarar várias variáveis em JavaScript é mais sustentável?
declarando várias variáveis em javascript: explorando dois métodos em javascript, os desenvolvedores geralmente encontram a necessidade de d...

Programação Postado em 2025-05-05
Como detectar com eficiência matrizes vazias no PHP?
verificando o vazio da matriz em php Uma matriz vazia pode ser determinada em PHP através de várias abordagens. Se a necessidade é verificar a...

Programação Postado em 2025-05-05
$Como resolver o erro \ "Uso inválido da função do grupo \" no MySQL ao encontrar a contagem máxima?$
Como resolver o erro \ "Uso inválido da função do grupo \" no MySQL ao encontrar a contagem máxima?
como recuperar a contagem máxima usando o mysql em mysql, você pode encontrar um problema enquanto tenta encontrar a contagem máxima de valore...

Programação Postado em 2025-05-05

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo