数字时代赋予
档案数据更多机遇和挑战,档案数据资源的建设、档案的开发利用等研究工作的基本要素是可被电子设备理解的档案信息文本。如何将档案信息构建成电子设备可识别的表示形式是档案信息文本表示的主要任务,当前针对此方面的研究相对薄弱。立足数字时代未来
发展和应用
实践的角度展开研究,首先从客体、主体、问题三个范畴对档案信息文本表示的概念进行解析,然后深入分析档案信息文本表示遵循的四重逻辑,并基于此研究构建档案信息文本表示普适模型UTRA。UTRA是针对档案文本特点构建的普适性模型,实现档案从初始状态的电子档案到算法可理解的档案数据原子态的转换,并对UTRA的整体框架、模型构建方法、Skip-gram&LDA子模块均进行了详细阐述。