管道和复合估计器

管道和复合估计器

Dask-ML 估计器遵循 scikit-learn API。这意味着像 dask_ml.decomposition.PCA 这样的 Dask-ML 估计器可以放置在常规的 sklearn.pipeline.Pipeline 内部。

有关管道的更多一般用法,请参阅 https://scikit-learn.cn/dev/modules/compose.html

In [1]: from sklearn.pipeline import Pipeline  # regular scikit-learn pipeline

In [2]: from dask_ml.cluster import KMeans

In [3]: from dask_ml.decomposition import PCA

In [4]: estimators = [('reduce_dim', PCA()), ('cluster', KMeans())]

In [5]: pipe = Pipeline(estimators)

In [6]: pipe
Out[6]: Pipeline(steps=[('reduce_dim', PCA()), ('cluster', KMeans())])

现在可以使用 Dask 数组来使用管道 pipe

异构数据的 ColumnTransformer

dask_ml.compose.ColumnTransformer 是 scikit-learn 版本的克隆,它能很好地与 Dask 对象配合使用。

有关 ColumnTransformer 的介绍,请参阅 https://scikit-learn.cn/dev/modules/compose.html#columntransformer-for-heterogeneous-data