未来大数据报告及应用 大数据新技术有哪些( 四 )


简单地将大量数据扔向计算资源的预测建模工作注定会失败 。“由于存在大量数据,而其中大部分数据可能与特定问题无关,只是在给定样本中可能存在相关关系,”FactSet投资组合管理和交易解决方案副总裁兼研究主管Henri Waelbroeck解释道,FactSet是一家金融数据和软件公司 。“如果不了解产生数据的过程,一个在有偏见的数据上训练的模型可能是完全错误的 。”
2.找到合适的模式
SAP高级分析产品经理Richard Mooney指出,每个人都痴迷于算法,但是算法必须和输入到算法中的数据一样好 。“如果找不到适合的模式,那么他们就毫无用处,”他写道 。“大多数数据集都有其隐藏的模式 。”
模式通常以两种方式隐藏:
1)模式位于两列之间的关系中 。例如,可以通过即将进行的交易的截止日期信息与相关的电子邮件开盘价数据进行比较来发现一种模式 。Mooney说:“如果交易即将结束,电子邮件的公开率应该会大幅提高,因为买方会有很多人需要阅读并审查合同 。”
2)模式显示了变量随时间变化的关系 。“以上面的例子为例,了解客户打开了200次电子邮件并不像知道他们在上周打开了175次那样有用,”Mooney说 。
3 .专注于可管理的任务,这些任务可能会带来积极的投资回报
纽约理工学院的分析和商业智能主任Michael Urmeneta称:“如今,人们很想把机器学习算法应用到海量数据上,以期获得更深刻的见解 。”他说,这种方法的问题在于,它就像试图一次治愈所有形式的癌症一样 。Urmeneta解释说:“这会导致问题太大,数据太乱——没有足够的资金和足够的支持 。这样是不可能获得成功的 。”
而当任务相对集中时,成功的可能性就会大得多 。Urmeneta指出:“如果有问题的话,我们很可能会接触到那些能够理解复杂关系的专家”。“这样,我们就很可能会有更清晰或更好理解的数据来进行处理 。”
4.使用正确的方法来完成工作
好消息是,几乎有无数的方法可以用来生成精确的预测分析 。然而,这也是个坏消息 。芝加哥大学NORC (前国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes说:“每天都有新的、热门的分析方法出现,使用新方法很容易让人兴奋” 。“然而,根据我的经验,最成功的项目是那些真正深入思考分析结果并让其指导他们选择方法的项目——即使最合适的方法并不是最性感、最新的方法 。”
罗切斯特理工学院计算机工程系主任、副教授shanchie Jay Yang建议说:“用户必须谨慎选择适合他们需求的方法” 。“必须拥有一种高效且可解释的技术,一种可以利用序列数据、时间数据的统计特性,然后将其外推到最有可能的未来,”Yang说 。

猜你喜欢