2023MCM-ICM美赛C题第二问思路

摘要

在睡了十一个小时后,蹦出的思路,目前网上没有看到相同的方法(不知道比赛刚结束就发思路会不会出事),第一题和第三题大家大同小异,就不讲解了。

题目

对于给定的未来解决方案单词,在未来的日期,开发一个模型,使您能够预测报告结果的分布。换句话说,预测未来日期(1,2,3,4,5,6,X)的相关百分比。你的模型和预测有哪些不确定性?举一个具体的例子,说明你对2023年3月1日EERIE一词的预测。你对模型的预测有多自信?

思路

首先是单词特征,笔者在这里选择了 6 个特征

  • 词频(
  • 词性(名词,动词 ……)
  • 音节数
  • 词的情感分类(贬义,中性,褒义)
  • 重复字母数
  • 当天是否是假期

要预测的 7 个百分比是很明显呈正态分布,可以使用正态分布曲线拟合,可视化如下

这样就可以将 7 个要预测的特征转化为 2 个特征(std,mean)

再搭建神经网络预测即可,由于数据量较少,笔者使用多层 Dropout 的方法,p 相继下降来防止过拟合,提高泛化。网络结构如下所示,超参在文末代码中

最后预测的EERIE百分比如下图所示

代码我放在了 github 仓库

https://github.com/aeeeeeep/2023MCM-C-Task2

欢迎给个 star ⭐⭐⭐~

- ETX   Thank you for reading -
  • Copyright: All posts on this blog except otherwise stated, All adopt CC BY-NC-ND 4.0 license agreement. Please indicate the source of reprint!