词向量是词的一种特征表示,是很多自然语言处理任务的基础步骤。本文介绍了一种用深度学习训练词向量的方法,训练好的词向量具有维度低、保留语义相似性的特征。对某个特定语料库训练词向量,用统计语言模型进行中文分词,去掉停用词之后,构造词库;利用CBOW模型在词库上面训练得到词向量。论文学习并且实现了一种分布式词向量表示,主要工作包括:(1)下载清华开源THUNews
数据集作为词向量训练数据集;(2)利用开源工具结巴对THUNews中所有文本进行中文分词;(3)利用开源工具FastText实现词向量的训练和评价。