文件列表:
通过欧盟辩论自动语音识别进行政治语料库创建【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Political corpus creation through automatic speech recognition on EU debates中文摘要:本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。英文摘要:In this paper, we present a transcribed corpus of the LIBE committee of theEU parliament, totalling 3.6 Million running words. The meetings ofparliamentary committees of the EU are a potentially valuable source o
加载中...
本文档仅能预览20页