dask_ml.datasets.make_classification_df
dask_ml.datasets.make_classification_df¶
- dask_ml.datasets.make_classification_df(n_samples=10000, response_rate=0.5, predictability=0.1, random_state=None, chunks=None, dates=None, **kwargs)¶
使用 make_classification 函数创建一个 Dask DataFrame 用于测试。
- 参数
- n_samplesint,默认值为 10000
要生成的观测数量
- response_ratefloat,介于 0.0 和 0.5 之间,默认值为 0.5
样本中响应记录的百分比,最大值为 0.5
- predictabilityfloat,介于 0.0 和 1.0 之间,默认值为 0.1
响应有多难预测(1.0 为最容易)
- random_stateint,默认值为 None
用于重现性的种子
- chunksint
如何对数组进行分块。必须是以下形式之一:- 一个块大小,如 1000。
- datestuple,可选,默认值为 None
起始日期和结束日期对象的元组,用于在日期列中生成随机日期
- **kwargs
要传递给 sklearn.datasets.make_classification 的其他关键字参数
- 返回值
- XDask DataFrame,形状为 [n_samples, n_features] 或
[n_samples, n_features + 1](指定日期时) 输入样本。
- yDask Series,形状为 [n_samples] 或 [n_samples, n_targets]
输出值。