写于京东赛(JData)

  • 时间:
  • 浏览:1
  • 来源:大发彩神在线计划—大发彩神计划怎么来的

还有有一4个多比较重要的每项我希望,负样本的建立。在这里的数据,所有买过的都是否是正样本,因此还时需负样本。我这里我希望我本人造了个负样本。按照1:1的比例,对所有数据,随机进行1-2天的前后移动,因此把有有哪些数据里的错误数据删去(错误数据:在这名 时间里有过购买行为的为错误的数据)。由此得到负样本。

也我希望说,在构建社会形态的随后,我时需所有的历史数据构建预测社会形态。有随后,也会有待预测时间段的因此 社会形态,比如在天池的O2O赛中(不过这也是有一4个多leakage,在实际工程中,是还可不上能 得到这名 数据的)。将历史数据的预测社会形态,和新数据的因此 预测社会形态结合起来,得到删改的所时需的社会形态,因此放上模型后面 ,得到预测结果。

时间序列预测的核心思想是:用过去时间里的数据预测未来时间里的Target。

感觉在数据比赛中,最最关键的还是社会形态。有随后模型时需稍微弱因此 ,甚至是单模型,也时需优于xgboost这名 提升模型。比如今年的IJCAI中的阿里妈妈算法大赛,夺冠的避免方案我希望单模型的·····膜拜一下大神。

在这名 块儿还差的很远。因此,京东赛分数不高的意味也是因此社会形态选的太弱,缺陷多。因此有几只思路吧:

1. 皮尔森相关系数的应用,时需看看社会形态和target之间的相关程度。太弱的因此时需直接抛下。

2. 确定因此 强相关性的社会形态,通过因此 个运算啊有哪些的构造因此 新的社会形态。

3. 结合业务场景,构造因此 业务中常用的因此 个指标。

4. 对于因此 特殊日期的关注。比如电商销售额预测,双十一双十二的数据肯定是异于平常的,此时时需对他进行单独的预测,因此和平时的进行加权,等(这因此是数据预避免阶段的工作)

5. 构建了一系列的社会形态,真是还可不上能 说所有的都没办法 重要,时需对社会形态进行确定,换成冗余社会形态。比如说,时需用xgboost最好的法律法律依据因此GBDT这名 有feature_importances最好的法律法律依据(因此score这名 )的,对训练完的模型的社会形态根据评分的不同进行排序,以此确定因此 较好的社会形态。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_324002811/article/details/400878146

在做京东赛的随后,第一眼看了数据集我希望懵的,感觉和房屋预测的咋因此 是否是一样·········训练集也没办法 ,测试集也没办法 ,因此还有几只表,咋往一块拼呢·········随后看了wepon在天池优惠券核销预测的代码后,才渐渐有了因此 思路,在这里感谢wepon大神,代码在这里。

京东赛告一段落。作为有一4个多菜菜鸟,真是无缘前十,因此也是否是有因此 小感悟和因此 对数据挖掘的认知。毕竟这是第一次接触比较接近实际工程中的数据,因此是时间序列相关的数据。

大致我希望有有哪些了。算法之路,漫漫其修远兮,吾将上下而求索(拽一下·····)。

(当让让我们之间的连接是按列连接,还可不上能 说按行连接。也我希望说,不管是哪段时间窗口,我提取到的社会形态维度是否是一样的,不同的时间窗口,大约我希望增加了我的训练实例(instance))

对于新数据,我的输入为(当前例子中)4,5,6月份的预测社会形态A换成7月份的预测社会形态B,整体构成社会形态集合。输入到模型中,得到预测结果。

通过时间滑窗,人为的构造target,让模型进行学习。也我希望对于历史数据,再人为设置历史窗口和未来窗口。为什么么做呢?具体示意图如下:



(图片来源为这里,这篇讲的也挺好的,对我理解时间序列起了很大帮助)

我希望有1-6月的历史数据,要预测7月份的销售量

按我的理解,时间滑窗大约增加了样本量,因此通过对不同时间段的采样,时需得到更充沛的社会形态。

2,3,4月份提取预测社会形态A,5月份提取预测社会形态B,并提取预测的target。

1,2,3月份提取预测社会形态A,4月份提取预测社会形态B,并提取预测target,也我希望销售量

最后呢,我把所有提取到的社会形态,也我希望每个窗口的预测社会形态A+预测社会形态B作为训练集,所有的预测target作为训练集的target。用有有哪些数据训练模型。

有了社会形态,另有一4个多们的target为什么么找?

这里当让让我们就要从历史数据中构建target.

有一4个多比较常用的最好的法律法律依据我希望滑窗。

以此类推,以有一4个多月为周期向前滚动。

对于我过去接触过的机器学习问题报告 报告 ,训练集我希望原始数据,测试集我希望新数据。我在原始数据和新数据中,捞出相同维的社会形态,区别我希望原始数据有标签,而新数据没办法 标签。用有标签的数据学习出有一4个多模型,再应用到具有相同社会形态维的没办法 标签的数据上,预测得到结果。

但对于时序数据来说,就不一样了。