, 回归该式:

, 获得一组

。 他的寄义是, 我们要用每一个区县的特征, 去诠释为何分歧的区县会对这部片子有纷歧样的「偏心」水平 。
举一个例子, 此刻有 100 小我, 50 个汉子 50 个女人, 本年总共看了 30 次片子, 汉子看了 15 次, 女人看了 15 次 。
此中有一部片子叫做《刺激的动作片》, 汉子看了 10 次, 女人看了 5 次 。 那么

从上式我们发现, 当性别从女性酿成男性的时辰, 对《刺激的动作片》的偏心水平从

上升到

, 带来了一个效应为

的上升 。 是以有:
这样, 就把性别对《刺激的动作片》的偏好影响估算出来了 。 我们对每个片子都做如斯回归, 半斤八两于是把 3000 多个区市县算作 3000 个具有分歧特征的人, 经由过程这 3000 个「人」的分歧特征和对片子的分歧偏好, 把所有生齿特征对所有片子的偏好给算出来 。
6, 利用性别比例、平均教育水平和春秋布局三个特征, 我们回归计较了所有片子, 记实下所有系数, 这样每个片子城市酿成一个三维的标的目的量 。 好比《复仇者联盟》, 我们就有三个数值:
对所有的片子, 我们都有这三个数值 。 前 20 名的片子的系数表格如下:
拔取 2012 到 2018 年所有不雅影人次在 1000 万以上的片子, 将三个数值别离作为一个三维空间的 x、y 和 z 轴作图, 可得下图:
在上面的三维坐标中, 大于零的部门暗示性别越偏男性 / 教育越高 / 春秋越小 越偏好于这部片子 。 用不雅影人次排名前 20 的片子举例, 具体表格如下:
这个算法准禁绝呢?我们可以做一个查验, 看每一个点的比来的邻人别离是谁——两个在三维空间里距离较短的点, 申明两者的不雅影人群十分近似 。 我们尝试了四部分歧类型的片子, 别离找到离这四部片子比来的 5 个点, 成果如下:
可以看到, 在空间上最接近的几个影片有不异的不雅众偏好, 一般也处在统一个范围内 。 好比到《复仇者联盟 2》距离比来的 5 部片子, 有 4 部是漫威出品;在距离《熊出没·变形记》比来的 5 部片子中, 有 4 部都是熊出没的系列片 。
从直觉上看, 这个算法仍是能很是精确地将片子给划分隔来的 。
出格有趣的是《战狼 2》, 距离他比来的五个点别离是——
1, 小时代 3:刺金时代
2, 小时代 4:魂灵绝顶
3, 佳丽鱼
4, 捉妖记
5, 小时代:青木时代 。
这申明《战狼 2》的不雅影人群画像, 和《小时代》系列是十分近似的 。 出格让人惊奇的是, 和我们的印象分歧, 《小时代》的性别系数和《战狼 2》一样, 都是正的, 申明男性越多的地域, 反而越偏好《小时代》 。猜你喜欢
- 猫嗓子哑了是什么造成的
- 为什么春茶好而夏茶出了问题?
- 微信如何知道对方是否删除了你?
- 猫咪生病了不吃东西怎么办
- 怎么升级miui9
- 怎么强制关闭程序
- “粗枝大叶”的黄大茶,你了解吗?
- 立春了手抄报
- 煎饺 速冻锅贴怎么煎?
- 喝茶等于喝农药?我们又被套路了吧
