我正在尝试在流接口中使用autoML来解决分类问题。

我的响应列是一种枚举数据类型,其值为1和0。

我的数据集确实不平衡,大约0.5%的行有1个响应。

我想尝试平衡类选项,但是每次尝试时,该程序都会引发错误。

如果我选中“余额类别”选项,是否还需要在class_sampling_factors输入框中输入值? 如果是这样,我要输入什么?

该文件说:

“ class_sampling_factors:(DRF,GBM,DL,朴素贝叶斯,AutoML)指定按类(按字典顺序)的上/下采样比率。默认情况下,在训练过程中会自动计算这些比率以获得班级平衡。选项仅适用于分类问题以及启用balance_classes时。”

但是似乎该函数无法运行,除非我放一些东西。

我尝试输入200.0、1和1.0,200.0,但似乎都无法正常工作。

===============>>#1 票数:0

使用“平衡类”时,不需要指定“类采样因子”参数。

我刚刚在H2O 3.26.0.9上进行了验证,您可以使用HIGGS数据集 (1万个子集)在选中“平衡类”的情况下成功运行AutoML,并将“类采样因子”留空。 我还为“类别抽样系数”输入了1.0,0.5,效果也很好。 我看不到旧版H2O上报告的任何错误(不确定您使用的是哪个版本),因此错误可能是由其他原因引起的吗?

这是两个选项生成的Flow输出:

在此处输入图片说明

在此处输入图片说明

  ask by Bob translate from so

本文未有回复,本站智能推荐: