dask_ml.datasets.make_regression
dask_ml.datasets.make_regression¶
- dask_ml.datasets.make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None, chunks=None)¶
生成一个随机回归问题。
输入集默认是良好条件数,或者具有低秩-胖尾奇异值分布。详情请参阅
sklearn.datasets.make_low_rank_matrix()
。这可用于在机器集群上生成非常大的 Dask 数组。在使用 Dask 分布式模式时,客户端机器只需要分配单个块的数据量即可。
- 参数
- n_samplesint,可选 (默认=100)
样本数量。
- n_featuresint,可选 (默认=100)
特征数量。
- n_informativeint,可选 (默认=10)
信息特征的数量,即用于构建生成输出的线性模型的特征数量。
- n_targetsint,可选 (默认=1)
回归目标数量,即与样本关联的 y 输出向量的维度。默认情况下,输出是标量。
- biasfloat,可选 (默认=0.0)
底层线性模型中的偏置项。
- effective_rankint 或 None,可选 (默认=None)
- 如果不是 None
通过线性组合解释大部分输入数据所需的近似奇异向量数量。在输入中使用这种奇异谱使得生成器可以重现实践中经常观察到的相关性。
- 如果是 None
输入集是良好条件数、中心化且具有单位方差的高斯分布。
- tail_strengthfloat,介于 0.0 和 1.0 之间,可选 (默认=0.5)
如果 effective_rank 不是 None,则奇异值分布的胖噪声尾的相对重要性。
- noisefloat,可选 (默认=0.0)
应用于输出的高斯噪声的标准差。
- shuffleboolean,可选 (默认=True)
打乱样本和特征。
- coefboolean,可选 (默认=False)
如果为 True,则返回底层线性模型的系数。
- random_stateint,RandomState 实例或 None (默认)
确定数据集创建的随机数生成。传递一个 int 以在多次函数调用中获得可重现的输出。参阅 术语表。
- chunksint, tuple
如何对数组进行分块。必须是以下形式之一: - 单个块大小,如 1000。 - 块形状,如 (1000, 1000)。 - 显式指定所有维度上所有块的大小,如
((1000, 1000, 500), (400, 400)).
- 返回
- X形状为 [n_samples, n_features] 的 Dask 数组
输入样本。
- y形状为 [n_samples] 或 [n_samples, n_targets] 的 Dask 数组
输出值。
- coef形状为 [n_features] 或 [n_features, n_targets] 的数组,可选
底层线性模型的系数。仅当 coef 为 True 时返回。