dask_ml.model_selection.ShuffleSplit
dask_ml.model_selection
.ShuffleSplit¶
- 类 dask_ml.model_selection.ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)¶
随机置换交叉验证器。
生成将数据分割为训练集和测试集的索引。
警告
默认情况下,这会执行按块洗牌。也就是说,每个块在内部被打乱,但数据不会在块之间打乱。如果您的数据是有序的,请设置
blockwise=False
。注意:与其他交叉验证策略相反,随机分割不保证所有折叠都不同,尽管对于大型数据集来说这仍然非常可能。
- 参数
- n_splitsint,默认为 10
重新洗牌和分割的迭代次数。
- test_sizefloat, int, None,默认为 0.1
如果为 float,应在 0.0 到 1.0 之间,表示测试分割中包含的数据集比例。如果为 int,表示测试样本的绝对数量。如果为 None,则该值设置为训练大小的补数。
- train_sizefloat, int, 或 None,默认为 None
如果为 float,应在 0.0 到 1.0 之间,表示训练分割中包含的数据集比例。如果为 int,表示训练样本的绝对数量。如果为 None,则该值自动设置为测试大小的补数。
- blockwisebool,默认为 True
是否只在块内打乱数据(True),或允许数据在块之间打乱(False)。在块之间打乱可能昂贵得多,尤其是在分布式环境中。
- random_stateint, RandomState 实例或 None,可选(默认为 None)
如果为 int,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,随机数生成器是 np.random 使用的 RandomState 实例。
方法
get_metadata_routing
()获取此对象的元数据路由。
get_n_splits
([X, y, groups])返回交叉验证器中的分割迭代次数。
split
(X[, y, groups])生成将数据分割为训练集和测试集的索引。
- __init__(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)¶