如何使用 Web 音频 API 防止语音转录中的说话者反馈

首页 > 编程 > 如何使用 Web 音频 API 防止语音转录中的说话者反馈

如何使用 Web 音频 API 防止语音转录中的说话者反馈

发布于2024-08-21

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

最近我需要弄清楚另一件事，将我的 Assembly.ai 转录引擎连接到声音很大的前端。

这是我尝试过的：

请求使用回声消除功能的麦克风访问权限。
使用 Web Audio API 设置音频处理链。
将此设置与语音识别集成。
利用 DynamicsCompressorNode 进行额外的音频处理。

第 1 步：请求使用回声消除功能的麦克风访问权限

第一步是请求访问启用了回声消除的麦克风。此功能内置于大多数现代浏览器中，有助于减少扬声器的反馈。

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

解释

约束：我们指定音频约束以启用回声消除、噪声抑制和自动增益控制。
错误处理：如果用户拒绝访问或存在任何其他问题，我们会捕获并记录错误。

第 2 步：设置 Web 音频 API 节点

接下来，我们设置 Web Audio API 来处理音频流。这涉及创建 AudioContext 并连接各个节点，包括 DynamicsCompressorNode。

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

解释

AudioContext：表示音频环境。
MediaStreamSource：将麦克风流连接到音频上下文。
DynamicsCompressorNode：降低音频信号的动态范围，有助于管理背景噪声和反馈。

第 3 步：与语音识别集成

最后，我们将音频处理设置与 Web Speech API 集成以执行语音识别。

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

解释

语音识别设置：我们设置了用于连续和临时语音识别的 Web Speech API。
事件处理：我们处理onresult和onerror事件来处理识别结果和错误。
开始识别：我们启动语音识别过程并确保音频上下文不会暂停。

希望您发现这很有用。

编码愉快！

蒂姆。

版本声明本文转载于：https://dev.to/fosteman/how-to-prevent-speaker-feedback-in-speech-transcription-using-web-audio-api-2da4?1如有侵犯，请联系[email protected]删除

最新教程更多>

如何使用Python理解有效地创建字典？
在python中，词典综合提供了一种生成新词典的简洁方法。尽管它们与列表综合相似，但存在一些显着差异。与问题所暗示的不同，您无法为钥匙创建字典理解。您必须明确指定键和值。 For example:d = {n: n**2 for n in range(5)}This creates a dicti...

编程发布于2025-06-16
如何检查对象是否具有Python中的特定属性？
方法来确定对象属性存在寻求一种方法来验证对象中特定属性的存在。考虑以下示例，其中尝试访问不确定属性会引起错误： >>> a = someClass（） >>> A.property Trackback（最近的最新电话）：文件“ ”，第1行， attributeError：SomeClass实...

编程发布于2025-06-16
$解决MySQL插入Emoji时出现的\\"字符串值错误\\"异常$
解决MySQL插入Emoji时出现的\\"字符串值错误\\"异常
Resolving Incorrect String Value Exception When Inserting EmojiWhen attempting to insert a string containing emoji characters into a MySQL database us...

编程发布于2025-06-16
如何实时捕获和流媒体以进行聊天机器人命令执行？
在开发能够执行命令的chatbots的领域中，实时从命令执行实时捕获Stdout，一个常见的需求是能够检索和显示标准输出（stdout）在cath cath cant cant cant cant cant cant cant cant interfaces in Chate cant inter...

编程发布于2025-06-16
PHP与C++函数重载处理的区别
作为经验丰富的C开发人员脱离谜题，您可能会遇到功能超载的概念。这个概念虽然在C中普遍，但在PHP中构成了独特的挑战。让我们深入研究PHP功能过载的复杂性，并探索其提供的可能性。在PHP中理解php的方法在PHP中，函数超载的概念（如C等语言）不存在。函数签名仅由其名称定义，而与他们的参数列表无关。...

编程发布于2025-06-16
如何使用Python有效地以相反顺序读取大型文件？
在python 中，如果您使用一个大文件，并且需要从最后一行读取其内容，则在第一行到第一行，Python的内置功能可能不合适。这是解决此任务的有效解决方案：反向行读取器生成器 == ord（'\ n'）：缓冲区=缓冲区[：-1] ...

编程发布于2025-06-16
为什么PHP的DateTime :: Modify（'+1个月'）会产生意外的结果？
使用php dateTime修改月份：发现预期的行为在使用PHP的DateTime类时，添加或减去几个月可能并不总是会产生预期的结果。正如文档所警告的那样，“当心”这些操作的“不像看起来那样直观。考虑文档中给出的示例：这是内部发生的事情：现在在3月3日添加另一个月，因为2月在2001年只有2...

编程发布于2025-06-16
用户本地时间格式及时区偏移显示指南
在用户的语言环境格式中显示日期/时间，并使用时间偏移在向最终用户展示日期和时间时，以其localzone and格式显示它们至关重要。这确保了不同地理位置的清晰度和无缝用户体验。以下是使用JavaScript实现此目的的方法。方法：推荐方法是处理客户端的Javascript中的日期/时间格式化和时...

编程发布于2025-06-16
对象拟合：IE和Edge中的封面失败，如何修复？
To resolve this issue, we employ a clever CSS solution that solves the problem:position: absolute;top: 50%;left: 50%;transform: translate(-50%, -50％）...

编程发布于2025-06-16
如何在鼠标单击时编程选择DIV中的所有文本？
在鼠标上选择div文本单击带有文本内容，用户如何使用单个鼠标单击单击div中的整个文本？这允许用户轻松拖放所选的文本或直接复制它。在单个鼠标上单击的div元素中选择文本，您可以使用以下Javascript函数： function selecttext（canduterid）{ if（do...

编程发布于2025-06-16
您如何在Laravel Blade模板中定义变量？
在Laravel Blade模板中使用Elegance 在blade模板中如何分配变量对于存储以后使用的数据至关重要。在使用“ {{}}”分配变量的同时，它可能并不总是最优雅的解决方案。幸运的是，Blade通过@php Directive提供了更优雅的方法： $ old_section =“...

编程发布于2025-06-16
如何为PostgreSQL中的每个唯一标识符有效地检索最后一行？
postgresql：为每个唯一标识符提取最后一行，在Postgresql中，您可能需要遇到与在数据库中的每个不同标识相关的信息中提取信息的情况。考虑以下数据：[ 1 2014-02-01 kjkj 在数据集中的每个唯一ID中检索最后一行的信息，您可以在操作员上使用Postgres的有效效率： ...

编程发布于2025-06-16
Java数组中元素位置查找技巧
在Java数组中检索元素的位置利用Java的反射API将数组转换为列表中，允许您使用indexof方法。（primitives）（链接到Mishax的解决方案）用于排序阵列的数组此方法此方法返回元素的索引，如果发现了元素的索引，或一个负值，指示应放置元素的插入点。

编程发布于2025-06-16
如何使用不同数量列的联合数据库表？
合并列数不同的表当尝试合并列数不同的数据库表时，可能会遇到挑战。一种直接的方法是在列数较少的表中，为缺失的列追加空值。例如，考虑两个表，表 A 和表 B，其中表 A 的列数多于表 B。为了合并这些表，同时处理表 B 中缺失的列，请按照以下步骤操作：确定表 B 中缺失的列，并将它们添加到表的末...

编程发布于2025-06-16
如何将多种用户类型（学生，老师和管理员）重定向到Firebase应用中的各自活动？
Red: How to Redirect Multiple User Types to Respective ActivitiesUnderstanding the ProblemIn a Firebase-based voting app with three distinct user type...

编程发布于2025-06-16