dask_ml.datasets.make_classification_df

dask_ml.datasets.make_classification_df

dask_ml.datasets.make_classification_df(n_samples=10000, response_rate=0.5, predictability=0.1, random_state=None, chunks=None, dates=None, **kwargs)

使用 make_classification 函数创建一个 Dask DataFrame 用于测试。

参数
n_samplesint,默认值为 10000

要生成的观测数量

response_ratefloat,介于 0.0 和 0.5 之间,默认值为 0.5

样本中响应记录的百分比,最大值为 0.5

predictabilityfloat,介于 0.0 和 1.0 之间,默认值为 0.1

响应有多难预测(1.0 为最容易)

random_stateint,默认值为 None

用于重现性的种子

chunksint

如何对数组进行分块。必须是以下形式之一:- 一个块大小,如 1000。

datestuple,可选,默认值为 None

起始日期和结束日期对象的元组,用于在日期列中生成随机日期

**kwargs

要传递给 sklearn.datasets.make_classification 的其他关键字参数

返回值
XDask DataFrame,形状为 [n_samples, n_features] 或

[n_samples, n_features + 1](指定日期时) 输入样本。

yDask Series,形状为 [n_samples] 或 [n_samples, n_targets]

输出值。