文件列表:
量化文本的差异性【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Quantifying the Dissimilarity of Texts中文摘要:本文研究各种文本相异度量方法(包括词汇表、词频分布和向量嵌入表示)在不同的任务(如按作者、主题和时间周期对文本进行聚类)中的性能表现,并分析了这些方法在不同长度文本间的偏差关系。结果表明,Jensen-Shannon Divergence 和基于嵌入的方法对 $h$ 的变化不敏感,而 Jaccard 距离则不一定可靠。英文摘要:Quantifying the dissimilarity of two texts is an important aspect of a numberof natural language processing tasks, including semantic information retrieval,topic classification, and document clustering. In this paper, we compared theproperties and performance of different dissimilarity
加载中...
已阅读到文档的结尾了