
近日,中国科学院软件研究所的刘焕勇在GitHub上公开了一份数据集,名字叫做ChineseDiachronicCorpus,翻译过来是:中文历时语料库 。发布仅两天,已经获得了132个星 。
据作者介绍,此语料库时间维度横跨六十余年,具体而言,腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002 。
每个数据集都有五个维度,包括id编号、新闻发布日期、新闻标题、新闻链接、以及新闻的主要内容 。例如参考消息数据集中的中的第二条新闻:
美新处华盛顿27日电:艾森豪威尔总统和法国总理摩勒今天决定延长他们的会谈而将于星期四上午再次举行会谈 。白宫新闻秘书哈格蒂说 , 法美会谈延长的“部分”原因是由于联合国讨论中东问题 。有采访人员问:艾森豪威尔和摩勒会谈的延长时间 , 是不是因为要在联合国中继续努力来使以色列军队撤出埃及所要求的土地,哈格蒂回答说,“中东局势当然是原因的一部分” 。在白宫公告发表的时候 , 已经有迹象显示 , 美国准备在联合国中提出一个提案,在其中提出一个解决以色列撤军僵局问题的计划 。艾森豪威尔和摩勒星期二会谈了三次,每次都讨论到中东局势 。他们和代表双方政府的高级顾问们星期三上午又在白宫会谈了约四十五分钟,哈格蒂说 , 中东还是一个主要的议题 。有采访人员问:是否产生了“什么困难” , 才要使会谈延长时间?哈格蒂回答说,不是那么回事 。据说摩勒来华盛顿是准备支持以色列要求在它的军队撤出加沙地带和亚喀巴湾各地之前得到安全保证的主张的 。有采访人员问:摩勒和总统在这个问题上是否已经取得了“任何一致的意见”?哈格蒂回答说:“我想我们等着吧!” 关于艾森豪威尔和摩勒在星期三讨论的其他问题,哈格蒂说,总理提出了法国对它目前在阿尔及利亚的头痛问题的态度 。

作者在GitHub中提到,当前关于开源可用的中文历时语料库较少 。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库,其对国内数十家报纸媒体进行监测,也有中国传媒大学网络媒体中心的历时语料库可以使用 。
当前,随着网络技术的发展以及采集技术的相对成熟,构建起历时语料库变得越来越容易,这就使得向外界共享历时语料库变得更为便利且必要 。
据悉,刘焕勇 通过公开收集的方式,从网络媒体和平面媒体两个角度出发,形成腾讯新闻、人民日报、参考消息三大历时语料库 。(该项目不可商用,版权归数据来源,侵删)
至于这些语料库的作用,在专业人士眼中非常宝贵 。例如,至少可以从词语考察经典情感文章大全、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作 。
作者名为刘焕勇经典情感文章大全,目前就职于中国科学院软件研究所,兼任数据地平线科技算法总监、南京擎盾科技技术顾问 , 专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作 。
【情感名词的意思经典情感文章大全】由于微信公众号试行乱序推送情感名词的意思,您可能不再能准时收到AI科技评论的推送 。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号 , 以及常点文末右下角的“在看” 。
猜你喜欢
- 情绪情感感情的区别 情感和感情的区别
- 什么叫股权剥离 什么叫情感剥离
- 情感剥离百度百科 情感剥离的表现
- 篮球框的周长与直径各是多少 篮球框的周长与直径分别应该是多少
- 清朝妃子不是宫斗就是偷情吗 真实情况是什么样的
- 学术界对于玄武门之变的三大猜测分别是什么?
- 曹操手下的五位奇才,为何他们的下场都不好呢?
- 诉讼离婚法院怎么查财产的 法院判决离婚财产怎么清查
- 婚姻法有关离婚的特别规定是 诉讼离婚中有哪两项特别规定
- peizi114介绍创业板注册制改革的意义是什么 为啥要选 股票交易 注册制 这篇文章说清楚 ...
