您的当前位置:首页 >> 期刊文献 >> 正文
分布式词向量研究和实现
摘 要:
词向量是词的一种特征表示,是很多自然语言处理任务的基础步骤。本文介绍了一种用深度学习训练词向量的方法,训练好的词向量具有维度低、保留语义相似性的特征。对某个特定语料库训练词向量,用统计语言模型进行中文分词,去掉停用词之后,构造词库;利用CBOW模型在词库上面训练得到词向量。论文学习并且实现了一种分布式词向量表示,主要工作包括:(1)下载清华开源THUNews数据集作为词向量训练数据集;(2)利用开源工具结巴对THUNews中所有文本进行中文分词;(3)利用开源工具FastText实现词向量的训练和评价。
作 者:
  • 唐国豪
单 位:
    西北工业大学附属中学
关键字:
  • 分布式词向量;中文分词;CBOW;fastText;
页 码:
    85-87
出 处:
HTML阅读PDF文献下载您还没有登陆会员账号,请先登陆,在进行阅读或下载!
返回顶部 关注公众号