dask_ml.datasets.make_blobs

dask_ml.datasets.make_blobs¶

dask_ml.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(- 10.0, 10.0), shuffle=True, random_state=None, chunks=None)¶

生成用于聚类的各向同性高斯斑点。

此函数可用于在机器集群上生成非常大的 Dask 数组。在使用 Dask 的分布式模式时，客户端机器只需要分配单个块的数据。

参数

n_samplesint 或 array-like, 可选 (默认值=100): 如果是整数，则表示总点数在各聚类中平均分配。如果是 array-like，序列中的每个元素表示每个聚类的样本数。
n_featuresint, 可选 (默认值=2): 每个样本的特征数量。
centersint 或形状为 [n_centers, n_features] 的数组, 可选: (默认值=None) 要生成的中心的数量，或固定的中心位置。如果 n_samples 是整数且 centers 为 None，则生成 3 个中心。如果 n_samples 是 array-like，则 centers 必须为 None 或长度等于 n_samples 长度的数组。
cluster_stdfloat 或 float 序列, 可选 (默认值=1.0): 聚类的标准差。
center_boxfloat 对 (min, max), 可选 (默认值=(-10.0, 10.0)): 随机生成中心时，每个聚类中心的边界框。
shuffleboolean, 可选 (默认值=True): 打乱样本。
random_stateint, RandomState 实例或 None (默认值): 确定数据集创建的随机数生成。传入一个整数可在多次函数调用中获得可重现的输出。请参阅术语表。
chunksint, tuple: 如何对数组进行分块。必须是以下形式之一： - 块大小，如 1000。 - 块形状，如 (1000, 1000)。 - 沿所有维度所有块的显式大小，如

((1000, 1000, 500), (400, 400)).

返回

X形状为 [n_samples, n_features] 的数组: 生成的样本。
y形状为 [n_samples] 的数组: 每个样本的聚类成员资格的整数标签。

另请参阅

make_classification: 一个更复杂的变体

示例

>>> from dask_ml.datasets import make_blobs
>>> X, y = make_blobs(n_samples=100000, chunks=10000)
>>> X
dask.array<..., shape=(100000, 2), dtype=float64, chunksize=(10000, 2)>
>>> y
dask.array<concatenate, shape=(100000,), dtype=int64, chunksize=(10000,)>

dask_ml.datasets.make_counts

dask_ml.datasets.make_regression