dask_ml.model_selection.ShuffleSplit

`dask_ml.model_selection`.ShuffleSplit¶

类 dask_ml.model_selection.ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)¶

随机置换交叉验证器。

生成将数据分割为训练集和测试集的索引。

警告

默认情况下，这会执行按块洗牌。也就是说，每个块在内部被打乱，但数据不会在块之间打乱。如果您的数据是有序的，请设置 blockwise=False。

注意：与其他交叉验证策略相反，随机分割不保证所有折叠都不同，尽管对于大型数据集来说这仍然非常可能。

参数

n_splitsint，默认为 10: 重新洗牌和分割的迭代次数。
test_sizefloat, int, None，默认为 0.1: 如果为 float，应在 0.0 到 1.0 之间，表示测试分割中包含的数据集比例。如果为 int，表示测试样本的绝对数量。如果为 None，则该值设置为训练大小的补数。
train_sizefloat, int, 或 None，默认为 None: 如果为 float，应在 0.0 到 1.0 之间，表示训练分割中包含的数据集比例。如果为 int，表示训练样本的绝对数量。如果为 None，则该值自动设置为测试大小的补数。
blockwisebool，默认为 True: 是否只在块内打乱数据（True），或允许数据在块之间打乱（False）。在块之间打乱可能昂贵得多，尤其是在分布式环境中。
random_stateint, RandomState 实例或 None，可选（默认为 None）: 如果为 int，random_state 是随机数生成器使用的种子；如果为 RandomState 实例，random_state 是随机数生成器；如果为 None，随机数生成器是 np.random 使用的 RandomState 实例。

方法

__init__(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)¶

dask_ml.model_selection.train_test_split

dask_ml.model_selection.KFold