, 回归该式:

, 获得一组

。 他的寄义是, 我们要用每一个区县的特征, 去诠释为何分歧的区县会对这部片子有纷歧样的「偏心」水平 。
举一个例子, 此刻有 100 小我, 50 个汉子 50 个女人, 本年总共看了 30 次片子, 汉子看了 15 次, 女人看了 15 次 。
此中有一部片子叫做《刺激的动作片》, 汉子看了 10 次, 女人看了 5 次 。 那么

从上式我们发现, 当性别从女性酿成男性的时辰, 对《刺激的动作片》的偏心水平从

上升到

, 带来了一个效应为

的上升 。 是以有:
这样, 就把性别对《刺激的动作片》的偏好影响估算出来了 。 我们对每个片子都做如斯回归, 半斤八两于是把 3000 多个区市县算作 3000 个具有分歧特征的人, 经由过程这 3000 个「人」的分歧特征和对片子的分歧偏好, 把所有生齿特征对所有片子的偏好给算出来 。
6, 利用性别比例、平均教育水平和春秋布局三个特征, 我们回归计较了所有片子, 记实下所有系数, 这样每个片子城市酿成一个三维的标的目的量 。 好比《复仇者联盟》, 我们就有三个数值:
对所有的片子, 我们都有这三个数值 。 前 20 名的片子的系数表格如下:
拔取 2012 到 2018 年所有不雅影人次在 1000 万以上的片子, 将三个数值别离作为一个三维空间的 x、y 和 z 轴作图, 可得下图:
在上面的三维坐标中, 大于零的部门暗示性别越偏男性 / 教育越高 / 春秋越小 越偏好于这部片子 。 用不雅影人次排名前 20 的片子举例, 具体表格如下:
这个算法准禁绝呢?我们可以做一个查验, 看每一个点的比来的邻人别离是谁——两个在三维空间里距离较短的点, 申明两者的不雅影人群十分近似 。 我们尝试了四部分歧类型的片子, 别离找到离这四部片子比来的 5 个点, 成果如下:
可以看到, 在空间上最接近的几个影片有不异的不雅众偏好, 一般也处在统一个范围内 。 好比到《复仇者联盟 2》距离比来的 5 部片子, 有 4 部是漫威出品;在距离《熊出没·变形记》比来的 5 部片子中, 有 4 部都是熊出没的系列片 。
从直觉上看, 这个算法仍是能很是精确地将片子给划分隔来的 。
出格有趣的是《战狼 2》, 距离他比来的五个点别离是——
1, 小时代 3:刺金时代
2, 小时代 4:魂灵绝顶
3, 佳丽鱼
4, 捉妖记
5, 小时代:青木时代 。
这申明《战狼 2》的不雅影人群画像, 和《小时代》系列是十分近似的 。 出格让人惊奇的是, 和我们的印象分歧, 《小时代》的性别系数和《战狼 2》一样, 都是正的, 申明男性越多的地域, 反而越偏好《小时代》 。猜你喜欢
- 牛油果吃了会长胖吗
- 哈士奇腹泻的普遍缘故都有哪些呢,早知道就好了
- 狗吃了人的美白牙膏会死吗?狗吃牙膏会怎么样?
- 你养的狗狗是否“智商高”,比照这种表现,内心就了解了
- 冰箱隔板脏了怎么办
- 未成熟的香蕉吃了会便秘吗
- 番石榴吃了会便秘吗
- 食用苹果的几个禁忌 你了解了吗
- 椰子吃了会长胖吗
- 甘蔗你吃对了吗?吃甘蔗的注意事项
