管道和复合估计器
目录
管道和复合估计器¶
Dask-ML 估计器遵循 scikit-learn API。这意味着像 dask_ml.decomposition.PCA
这样的 Dask-ML 估计器可以放置在常规的 sklearn.pipeline.Pipeline
内部。
有关管道的更多一般用法,请参阅 https://scikit-learn.cn/dev/modules/compose.html。
In [1]: from sklearn.pipeline import Pipeline # regular scikit-learn pipeline
In [2]: from dask_ml.cluster import KMeans
In [3]: from dask_ml.decomposition import PCA
In [4]: estimators = [('reduce_dim', PCA()), ('cluster', KMeans())]
In [5]: pipe = Pipeline(estimators)
In [6]: pipe
Out[6]: Pipeline(steps=[('reduce_dim', PCA()), ('cluster', KMeans())])
现在可以使用 Dask 数组来使用管道 pipe
。
异构数据的 ColumnTransformer¶
dask_ml.compose.ColumnTransformer
是 scikit-learn 版本的克隆,它能很好地与 Dask 对象配合使用。
有关 ColumnTransformer
的介绍,请参阅 https://scikit-learn.cn/dev/modules/compose.html#columntransformer-for-heterogeneous-data。