豆瓣挨了用户的「板子」,冤吗?( 三 )



, 回归该式:

豆瓣挨了用户的「板子」,冤吗?


, 获得一组
豆瓣挨了用户的「板子」,冤吗?


。 他的寄义是, 我们要用每一个区县的特征, 去诠释为何分歧的区县会对这部片子有纷歧样的「偏心」水平 。
举一个例子, 此刻有 100 小我, 50 个汉子 50 个女人, 本年总共看了 30 次片子, 汉子看了 15 次, 女人看了 15 次 。
此中有一部片子叫做《刺激的动作片》, 汉子看了 10 次, 女人看了 5 次 。 那么
豆瓣挨了用户的「板子」,冤吗?


从上式我们发现, 当性别从女性酿成男性的时辰, 对《刺激的动作片》的偏心水平从
豆瓣挨了用户的「板子」,冤吗?


上升到
豆瓣挨了用户的「板子」,冤吗?


, 带来了一个效应为
豆瓣挨了用户的「板子」,冤吗?


的上升 。 是以有:

豆瓣挨了用户的「板子」,冤吗?


这样, 就把性别对《刺激的动作片》的偏好影响估算出来了 。 我们对每个片子都做如斯回归, 半斤八两于是把 3000 多个区市县算作 3000 个具有分歧特征的人, 经由过程这 3000 个「人」的分歧特征和对片子的分歧偏好, 把所有生齿特征对所有片子的偏好给算出来 。
6, 利用性别比例、平均教育水平和春秋布局三个特征, 我们回归计较了所有片子, 记实下所有系数, 这样每个片子城市酿成一个三维的标的目的量 。 好比《复仇者联盟》, 我们就有三个数值:
豆瓣挨了用户的「板子」,冤吗?


对所有的片子, 我们都有这三个数值 。 前 20 名的片子的系数表格如下:
豆瓣挨了用户的「板子」,冤吗?


拔取 2012 到 2018 年所有不雅影人次在 1000 万以上的片子, 将三个数值别离作为一个三维空间的 x、y 和 z 轴作图, 可得下图:
豆瓣挨了用户的「板子」,冤吗?


在上面的三维坐标中, 大于零的部门暗示性别越偏男性 / 教育越高 / 春秋越小 越偏好于这部片子 。 用不雅影人次排名前 20 的片子举例, 具体表格如下:
这个算法准禁绝呢?我们可以做一个查验, 看每一个点的比来的邻人别离是谁——两个在三维空间里距离较短的点, 申明两者的不雅影人群十分近似 。 我们尝试了四部分歧类型的片子, 别离找到离这四部片子比来的 5 个点, 成果如下:
豆瓣挨了用户的「板子」,冤吗?


可以看到, 在空间上最接近的几个影片有不异的不雅众偏好, 一般也处在统一个范围内 。 好比到《复仇者联盟 2》距离比来的 5 部片子, 有 4 部是漫威出品;在距离《熊出没·变形记》比来的 5 部片子中, 有 4 部都是熊出没的系列片 。
从直觉上看, 这个算法仍是能很是精确地将片子给划分隔来的 。
出格有趣的是《战狼 2》, 距离他比来的五个点别离是——
1, 小时代 3:刺金时代
2, 小时代 4:魂灵绝顶
3, 佳丽鱼
4, 捉妖记
5, 小时代:青木时代 。
这申明《战狼 2》的不雅影人群画像, 和《小时代》系列是十分近似的 。 出格让人惊奇的是, 和我们的印象分歧, 《小时代》的性别系数和《战狼 2》一样, 都是正的, 申明男性越多的地域, 反而越偏好《小时代》 。

猜你喜欢