通过欧盟辩论自动语音识别进行政治语料库创建（英文版）

发布者：wx****57

2023-04-21

454 KB 22 页

人工智能（AI）

文件列表：

通过欧盟辩论自动语音识别进行政治语料库创建【英文版】.pdf

下载文档

资源简介

英文标题：Political corpus creation through automatic speech recognition on EU debates中文摘要：本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。英文摘要：In this paper, we present a transcribed corpus of the LIBE committee of theEU parliament, totalling 3.6 Million running words. The meetings ofparliamentary committees of the EU are a potentially valuable source o

加载中...

本文档仅能预览20页

继续阅读请下载文档