Dissertation/ Thesis

基于主题模型的全宋词语料库构建以及计算机辅助宋词创作研究

التفاصيل البيبلوغرافية
العنوان: 基于主题模型的全宋词语料库构建以及计算机辅助宋词创作研究
المؤلفون: 黄子轩
المساهمون: 北京大学
المصدر: 万方 ; http://d.g.wanfangdata.com.cn/Thesis_Y2218007.aspx
سنة النشر: 2012
المجموعة: Peking University Institutional Repository (PKU IR) / 北京大学机构知识库
مصطلحات موضوعية: 计算机辅助诗词创作, 参考词推荐, 主题模型, 宋词语料库, 联句应对, 诗词自动生成
الوصف: 汉语古典诗词的计算化工作始于20世纪90年代中期,无数专家学者曾在包括语料库建立、词汇语义分析、诗词风格分析、联句应对、诗词自动生成等方面进行了研究并取得了一定的成果.
总的来说,相关工作主要针对两个方向,一个是利用计算机来分析诗词,研究诗词中的用语特点、词语变迁、风格特征等等.另一个是利用计算机来创作诗词,如俳句的生成、诗词的自动生成等.
本文的关注点主要在于利用计算机快速的计算能力与检索能力,结合相关领域如词汇语义分析、诗词自动生成等方面的研究成果,来帮助诗词爱好者更好的创作诗词.
本文将主要讨论计算机辅助人工诗词创作中的一个新的研究方向——参考词推荐,即在人创作诗词的过程中,利用计算机的快速检索能力以及已有的语言知识,最大可能的为创作者提供可能有用的参考词,整个过程中,计算机的作用就是利用各种已有知识最大限度的缩小参考词范围,以期达到较为有用的参考词推荐,但创作本身是由人来完成,可以说,计算机在其中扮演一个智能检索系统的角色,帮助创作者整合各种知识,提出可能有益的意见,却不会对创作本身的乐趣——思想的表达、感情的抒发等造成任何影响,这也是诗词爱好者在进行创作时最为渴求的工具.
针对参考词推荐这一任务的特殊性,本文结合宋词本身的句法特点完成了全宋词的分词与音韵标注语料库的构建;针对词汇的情感风格分类方面,本文采用了主题模型中的LDA模型,将风格获取任务转换为主题获取任务,从而得到了词汇的风格分类数据;针对词汇的搭配获取任务,本文利用宋词的句法特点对句子进行了适当的切割,从而有效的减少了无效搭配的数量.
最终进行参考词推荐时,将综合考虑格律、搭配以及主题风格,将可选的参考词数量缩小到易选取的级别,同时亦尽可能的保留可能有用的参考词,不做过度的筛选. ; 0
نوع الوثيقة: thesis
اللغة: Chinese
Relation: 北京大学.; 711426; http://hdl.handle.net/20.500.11897/350165
الاتاحة: https://hdl.handle.net/20.500.11897/350165
رقم الانضمام: edsbas.1E66C61D
قاعدة البيانات: BASE