导航菜单

使用机器学习预测电影的商业成功

整个电影业都有其自己的小世界。许多猜测围绕着电影的成功。即使是预算巨大的电影,也可能会大受欢迎,也可以不加考虑就放弃。无论如何,都是徒劳的生产者。考虑到这一思想,进行了在arXiv.org上发布的最新研究工作,以使用机器学习算法预测电影的商业可行性。

研究方法论

这项研究的主要重点是通过了解电影的特征来评估电影是否会成功。为此,考虑了两个研究问题(RQ):

RQ1- 在投资回报率方面,随机森林算法在预测电影是否将获得商业成功方面有多成功?

RQ2- 在预测电影的ROI时,哪些单独的功能和功能组最重要?

特征分析

被分析为任何电影特征的特征被分为11组,每组包括相似特征的特征。下表1中列出了每个组。

图片来源:由研究人员提供/ arXiv:2101.01697

数据采集

该研究的数据收集主要是通过提供元数据的“电影数据集”进行的。数据公开竞赛社区提供了所谓的基因组标签,这些标签进一步与元数据合并。通过TMDB和IMDB获得了更多功能。最初,获得了13k行,但是将它们减少到使研究限于5426行。

机器学习算法

最初,回归被视为预测结果的机器学习算法。但是,由于发现许多结果都不准确,因此可以考虑将ROI(投资回报率)的中值设置为低于或高于该值。

分类任务是通过部署随机森林(RF)算法完成的,因为它被认为是最成功的非线性机器学习算法之一。在RF中,当特征的子集被随机选择用于分割节点时,训练数据的随机样本用于训练决策树。为了使预测准确,要考虑所有决策树的平均值。

降维–奇异值分解(SVD)用于删除高维特征,并且还删除了高度相关的数据。即使是相互信息较少的功能也被删除。这样做是为了减小数据集的大小并增强训练过程。

超参数优化– 开发了网格搜索空间以获得最佳超参数。但是,由于网格搜索空间的大小过于昂贵,因此执行了随机搜索。

模型评估

精度最初被认为是合适的评估指标,但是对于不同的阈值它会产生不同的精度。这导致了多个预测。因此,使用名为“接收器工作特性(ROC)曲线下的面积”的统计参数进行评估。这是真阳性率和假阳性率之间的曲线,首字母缩写词AUC用于表示度量。

此外,在电影在中位数ROI上方或下方随机分配的情况下,使用随机基线方法。AUC值越高,模型越好。

特征重要性分析

使用置换特征重要性技术测量特征或一组特征的重要性。特征的排列导致模型性能下降,这种下降称为重要性值(IV)。值越高,该功能越重要。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。