
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟协办的“影响中国大数据产业进程100人”大型人物专访活动全面启动 , 被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!
张华平,中国首席数据联盟专家组成员 , 北京理工大学副教授,博士,研究生导师,知名汉语分词系统ICTCLAS创始人,大数据搜索与挖掘实验室主任,《大数据搜索与挖掘》作者 。
本期由我们的特邀嘉宾鲁四海向张华平博士发问 。鲁四海是中国新一代IT产业推进联盟技术分委会秘书长,北大信息化与信息管理研究中心技术顾问,中国首席数据联盟发起人 。
鲁四海:云计算、智慧城市、移动互联网、大数据与物联网已经成为大数据时代的技术特征,实现了人理智与情感主角、机器与实物的互联互通 。对语言的理解一直是大数据深入应用的一道门槛 。互联网上的内容很多,可以说是信息泛滥 , 那么要从网络挖掘内容价值,是不是也有一些条件和要求需要满足?
张华平: 是的 。网络搜索与挖掘其实就是四步曲: 目标分解,信息收集,分析去噪 , 情报提炼 。据此可以看出,要进行网络搜索与挖掘,也必须具备四个要件 。
一个实用案例是中国证监会的网络舆情系统,这是我做的 。它会广泛搜集网上各种各样的信息,采集BBS论坛新闻,包括采集微博信息 。采完以后进行各种分析提炼,可以发现有什么人在发布虚假信息 。
再比如用于地图开发 。我们的GPS数据 , 许多都是由地图厂商那里来的 。地图商们总是面临一个问题,某地新盖了一栋楼了 , 或者搬地方了,或者又多了一家宾馆,等等 。地图厂商要获得这些信息,其实是相当耗钱费力的,他们要每天派300辆车在全国各地跑,一直跑一直拍,沿途发现什么地方变化了,或者路断了,就要分析再入库 。
用网络搜索和数据挖掘的手段来解决此事就方便许多了 。现在是网络时代,例如某地要盖个楼、开家宾馆什么的,一般网上都会有消息发出来,那么就可以用技术手段,从新闻或网友发言中分析挖掘出来 。地图商或交管局拿了这个数据,稍微核实一下就能够用来更新自己的数据库 。
此外,国内网上的“水军”现在是很厉害的,要炒作什么话题,要把谁捧上去或贬下来,手法多种多样,真是翻手为云覆手为雨 。我们就可以通过数据挖掘,辨别出“水军”力量的运作线索 。
张华平:这看似简单,是一个很复杂的过程,要应用者对大数据文本的处理需求,需要完整的技术链条,包括:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等 。
但大数据文本处理这部分相对独立,又需要无缝地融合到的各类复杂应用系统之中,所以在选择这部分组件的时候需要否兼容主流的平台 , Java,C/C , C#, Python,Php, R等各类主流开发语言是否能很好调用其所有功能 。
鲁四海:我想张博士开发的NLPIR就能够全方位多角度满足应用者对大数据文本的处理需求 。能不能请张博士对NLPIR采用的一些先进算法给我们分享一下 。
张华平:NLPIR实体抽取系统能够智能识别文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词 , 这是对语言规律的深入理解和科学预测,其所提炼出的词语不需要在词典库中事先存在 。NLPIR实体抽取系统采用基于角色标注算法自动识别命名实体(算法细节请参照:《大数据搜索与挖掘》) , 开发者可在此基础上搭建多样化的大数据挖掘应用 。
NLPIR采用深度神经网络对分类体系进行了综合训练 。演示平台目前训练的类别只是新闻的、经济理智与情感主角、军事等 。我们内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高 , 综合开放测试的F值接近86% 。NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面 。此外还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息 , 可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域 。
NLPIR情感分析提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图) 。情感分析主要采用了两种技术:
1.情感词的自动识别与权重自动计算,利用共现关系,采用Bootstrapping的策略,反复迭代 , 生成新的情感词及权重 。
【理智与情感主角】中国首席数据官联盟/中国CDO精英俱乐部是国内首个以CDO为核心的技术型非盈利性联盟组织,遵循自愿、平等、合作的原则 。其发起人为鲁四海、刘冬冬、葛涵涛 。我们希望成为中国大数据产业创新与发展推动者 , 为实现中国大数据产业全球领先而努力 。我们将一如继往的打造跨行业、跨领域的商业精英交流平台,提升CDO在企业中的地位,提 升企业的数据化水平,将数据变为未来企业发展的核心驱动力并最终推动中国大数据产业整体发展水平 。
猜你喜欢
- 汉灵帝自称无上将军:权力的展示与个人野心
- 魏王豹夫人与刘邦的结晶:历史中的神秘人物
- 武则天的子嗣与命运解析
- 情感标题怎么写吸引人 情感类账号取名
- 情感过滤假说的例子
- 情感剥离试验6人情感本
- 最能打动人心的情感话 情感简介怎么写吸引人
- 挽回情感的大忌
- 情感词汇500句情感文章标题
- 顾况与白居易:一段跨越时空的友情与结局
