dask_ml.model_selection.ShuffleSplit

dask_ml.model_selection.ShuffleSplit

dask_ml.model_selection.ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)

随机置换交叉验证器。

生成将数据分割为训练集和测试集的索引。

警告

默认情况下,这会执行按块洗牌。也就是说,每个块在内部被打乱,但数据不会在块之间打乱。如果您的数据是有序的,请设置 blockwise=False

注意:与其他交叉验证策略相反,随机分割不保证所有折叠都不同,尽管对于大型数据集来说这仍然非常可能。

参数
n_splitsint,默认为 10

重新洗牌和分割的迭代次数。

test_sizefloat, int, None,默认为 0.1

如果为 float,应在 0.0 到 1.0 之间,表示测试分割中包含的数据集比例。如果为 int,表示测试样本的绝对数量。如果为 None,则该值设置为训练大小的补数。

train_sizefloat, int, 或 None,默认为 None

如果为 float,应在 0.0 到 1.0 之间,表示训练分割中包含的数据集比例。如果为 int,表示训练样本的绝对数量。如果为 None,则该值自动设置为测试大小的补数。

blockwisebool,默认为 True

是否只在块内打乱数据(True),或允许数据在块之间打乱(False)。在块之间打乱可能昂贵得多,尤其是在分布式环境中。

random_stateint, RandomState 实例或 None,可选(默认为 None)

如果为 int,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,随机数生成器是 np.random 使用的 RandomState 实例。

方法

get_metadata_routing()

获取此对象的元数据路由。

get_n_splits([X, y, groups])

返回交叉验证器中的分割迭代次数。

split(X[, y, groups])

生成将数据分割为训练集和测试集的索引。

__init__(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)