2014年高考作文,百度预测中了吗?( 二 )


我们人为地设定一些主题,并且在数据分析的帮助下给每个主题设定好关键词 。 比如“狗”的主题下的关键词可以包括“骨头”、“汪星人”、“忠诚”、“朋友”等等,如果是最近的研究恐怕还要加上“广西玉林” 。 这些关键词的设定没必要非常严格,到底哪个词更重要可以交给机器去发现 。
这样我们就有了一个主题的集合,每个主题又都是一大堆关键词的集合 。 同样一个词可以在多个主题中出现,但是在不同主题下出现的概率是不同的 。
计算机要做的仅仅是使用一定的数学方法对根据每篇文章中的词汇进行分析 。 一篇文章拿过来,你要做的就是把事先设定的所有主题一个一个的过一遍,计算这篇文章中的词汇对应每个主题的可能性是多少 。 计算结果,就是这篇文章说的是每个主题的概率大小 。 一篇文章也许可以有超过一个主题,这不是问题 。 关键在于,计算机可以判断一篇文章最有可能说的是什么主题,第二可能说的是什么主题……这就相当于计算机已经“读懂”了这篇文章 。
百度只要把海量的作文都用这种方法分析一遍,就得到了各种不同主题的出现总概率 。 更进一步,再结合年度风云搜索信息和当年的热点新闻信息,就可以判断现在最流行的作文主题是什么了 。
LDA有很多应用 。 只要把“文章”改成“图像”,把“主题”改成“物体”,它就可以用来分析一张图片中都有什么物体,并用于给图像分类 。 它还可以用来分析音乐的乐句,再结合每首歌的受喜爱程度,就可以用于歌曲推荐 。 我猜主题模型的方法还可以用于分析新闻报道、电影剧本、小说和游戏情节,这样机器就能比任何文化批评家更早意识到现在流行什么 。
如果机器如此厉害,人又当如何?
【未来】
设想几年之后,所有考生都知道了百度能预测作文题 。 这些考生将会熟练掌握百度指出的任何主题 。 这样一来,他们的高考作文成绩将会非常接近 — 而这是出题者所不愿意看到的,因为高考的作用不是为了证明学生学得好,而是为了选拔,选拔要求必须有比分差距 。
出题者怎么办?他们必须打破俗套,发明全新主题!从这个意义上讲数据分析带来了社会进步 。
但这有一个问题 。 数据分析会迅速发现这个新主题,并且促使它以比以往快得多的速度流行开来 。 等到所有考生都掌握了新的主题,这个新主题就又没用了 。
所以数据分析的真正作用是能让好东西迅速流传开来……然后迅速消亡 。 这里说的当然不只是高考作文,更重要的是电影剧情之类 。
华尔街的金融公司使用各种数学模型进行股票交易 。 这些模型的特点是一开始如果只有你在用,你也许可以非常赚钱,可是一旦别人也开始用同样的模型,那么市场就会在这方面变得越来越有效率,以至于这个模型的回报率就越来越低 。 于是你就只能再去发明一个新模型,一个更复杂的模型 。 直到这个模型也变得不好使 。
结果华尔街就永远需要新模型,而且越来越复杂,越来越不容易赚钱 。 这是一场军备竞赛 。
主题也是如此 。 一个好使的主题会因为有太多人使用而变得不再好使,人们被迫发明新主题,但新主题也将会变得不好使 。
这都是互联网和数据分析带来的 。 整个过程的节奏可能会越来越快 。 历史必然加速前进,直到……

以上内容就是2014年高考作文,百度预测中了吗?的内容啦,希望对你有所帮助哦!

猜你喜欢