语音领域还包含多种其他任务。

说话人日志(Speaker diarization)的任务是在一段长时间、多说话人的录音中判断“谁在什么时候说话”,即标注出每位说话人在交互中发言的起止时间。 该技术可用于会议转录、课堂语音记录或医患对话等场景。 通常,说话人日志系统会先使用语音活动检测(Voice Activity Detection, VAD)找出连续的语音片段,然后提取说话人嵌入向量,并对这些向量进行聚类,将可能来自同一说话人的片段归为一类。 近期的研究则开始探索端到端算法,直接从输入语音映射到每一帧对应的说话人标签序列。

说话人识别(Speaker recognition)是指识别说话人身份的任务。 我们通常将其细分为两个子任务: 说话人验证(speaker verification):做出二元判断(“这是说话人 X 吗?”),常用于电话访问个人账户等安全场景; 说话人辨识(speaker identification):在 N 个候选者中选择一个,即将一段语音与包含多位说话人的数据库进行匹配,确定其身份。

语种识别(language identification)任务中,系统接收一段波形文件,并需判断其中所使用的语言。这项任务对于构建多语言模型、创建标注数据集,乃至在线语音系统都具有重要意义。

唤醒词检测(wake word detection)的任务是检测某个特定词语或短语(如 “Alexa”、“Hey Siri” 或 “OK Google”),通常用于激活语音助手。 唤醒词检测的关键目标是将检测模块部署在边缘计算设备(如智能音箱或手机)上,以最小化上传至云端服务器的用户语音数据量,从而保护隐私。 因此,唤醒词检测器必须是运行速度快、占用内存小的轻量级软件,能够嵌入资源受限的设备中。 这类检测器通常采用与 ASR 相同的前端特征提取方法,随后接一个整词分类器(whole-word classifier)进行判别。