API 参考

API 参考¶

本页列出了 dask_ml 中的所有估计器和顶层函数。除非另有说明，dask-ml 中实现的估计器适用于并行和分布式训练。

`dask_ml.model_selection`: 模型选择¶

用于超参数优化的工具集。

这些估计器将并行运行。其可扩展性取决于所使用的底层估计器。

Dask-ML 提供了一些交叉验证工具。

model_selection.train_test_split(*arrays[, ...])

将数组分割成随机训练和测试矩阵。

model_selection.train_test_split() 是一个简单的辅助函数，内部使用 model_selection.ShuffleSplit。

`model_selection.ShuffleSplit`([n_splits, ...])	随机置换交叉验证器。
`model_selection.KFold`([n_splits, shuffle, ...])	K折交叉验证器

Dask-ML 提供了网格搜索和随机搜索的直接替换。这些方法适用于交叉验证分割可以放入内存的数据集。

`model_selection.GridSearchCV`(estimator, ...)	对估计器的指定参数值进行穷举搜索。
`model_selection.RandomizedSearchCV`(...[, ...])	对超参数进行随机搜索。

对于大于内存的数据集的超参数优化，Dask-ML 提供以下工具

`model_selection.IncrementalSearchCV`(...[, ...])	对支持 partial_fit 的模型进行超参数增量搜索
`model_selection.HyperbandSearchCV`(estimator, ...)	使用自适应交叉验证算法寻找特定模型的最佳参数。
`model_selection.SuccessiveHalvingSearchCV`(...)	执行逐次折半算法 [R424ea1a907b1-1]。
`model_selection.InverseDecaySearchCV`(...[, ...])	对支持 partial_fit 的模型进行超参数增量搜索

`dask_ml.ensemble`: 集成方法¶

`ensemble.BlockwiseVotingClassifier`(estimator)	块式训练和集成投票分类器。
`ensemble.BlockwiseVotingRegressor`(estimator)	块式训练和集成投票回归器。

`dask_ml.linear_model`: 广义线性模型¶

dask_ml.linear_model 模块实现了用于分类和回归的线性模型。

`linear_model.LinearRegression`([penalty, ...])	线性回归估计器。
`linear_model.LogisticRegression`([penalty, ...])	逻辑回归估计器。
`linear_model.PoissonRegression`([penalty, ...])	泊松回归估计器。

`dask_ml.naive_bayes`: 朴素贝叶斯¶

naive_bayes.GaussianNB([priors, classes])

使用高斯似然拟合朴素贝叶斯模型

`dask_ml.wrappers`: 元估计器¶

dask-ml 提供了一些元估计器，有助于使用遵循 scikit-learn API 的常规估计器。这些元估计器使得底层估计器能够很好地与 Dask 数组或 DataFrame 一起工作。

`wrappers.ParallelPostFit`([estimator, ...])	用于并行预测和转换的元估计器。
`wrappers.Incremental`([estimator, scoring, ...])	用于将 Dask 数组按块送入估计器的元估计器。

`dask_ml.cluster`: 聚类¶

无监督聚类算法

`cluster.KMeans`([n_clusters, init, ...])	用于聚类的可伸缩 KMeans
`cluster.SpectralClustering`([n_clusters, ...])	应用并行谱聚类

`dask_ml.decomposition`: 矩阵分解¶

decomposition.IncrementalPCA([n_components, ...])

增量主成分分析 (IPCA)。

decomposition.PCA([n_components, copy, ...])

主成分分析 (PCA)

decomposition.TruncatedSVD([n_components, ...])

方法

`dask_ml.preprocessing`: 数据预处理¶

用于数据预处理的工具集。

`preprocessing.StandardScaler`(*[, copy, ...])	通过移除均值并将方差缩放到单位方差来标准化特征。
`preprocessing.RobustScaler`(*[, ...])	使用对异常值具有鲁棒性的统计量来缩放特征。
`preprocessing.MinMaxScaler`([feature_range, ...])	通过将每个特征缩放到给定范围来转换特征。
`preprocessing.QuantileTransformer`(*[, ...])	使用分位数信息转换特征。
`preprocessing.Categorizer`([categories, columns])	将 DataFrame 的列转换为分类 dtype。
`preprocessing.DummyEncoder`([columns, drop_first])	对分类列进行虚拟变量（独热）编码。
`preprocessing.OrdinalEncoder`([columns])	对分类列进行顺序（整数）编码。
`preprocessing.LabelEncoder`([use_categorical])	对标签进行编码，使其值介于 0 和 n_classes-1 之间。
`preprocessing.PolynomialFeatures`([degree, ...])	生成多项式和交互特征。
`preprocessing.BlockTransformer`(func, *[, ...])	从任意可调用对象构造一个转换器

`dask_ml.feature_extraction.text`: 特征提取¶

`feature_extraction.text.CountVectorizer`(*[, ...])	将文本文件集合转换为词频矩阵
`feature_extraction.text.HashingVectorizer`(*)	将文本文件集合转换为词出现矩阵。
`feature_extraction.text.FeatureHasher`([...])	实现特征哈希，也称为哈希技巧。

`dask_ml.compose`: 复合估计器¶

用于使用转换器构建复合模型的元估计器。

用于使用多个转换器组合模型的元估计器。

这些估计器对于处理异构表格数据很有用。

compose.ColumnTransformer(transformers[, ...])

将转换器应用于数组或 pandas DataFrame 的列。

compose.make_column_transformer(...)

从给定的转换器构造 ColumnTransformer。

`dask_ml.impute`: 填充缺失数据¶

impute.SimpleImputer(*[, missing_values, ...])

方法

`dask_ml.metrics`: 度量¶

评分函数、性能度量和成对距离计算。

回归度量¶

`metrics.mean_absolute_error`(y_true, y_pred)	平均绝对误差回归损失。
`metrics.mean_absolute_percentage_error`(...)	平均绝对百分比误差回归损失。
`metrics.mean_squared_error`(y_true, y_pred[, ...])	均方误差回归损失。
`metrics.mean_squared_log_error`(y_true, y_pred)	均方对数误差回归损失。
`metrics.r2_score`(y_true, y_pred[, ...])	\(R^2\) (决定系数) 回归评分函数。

分类度量¶

`metrics.accuracy_score`(y_true, y_pred[, ...])	准确度分类评分。
`metrics.log_loss`(y_true, y_pred[, eps, ...])	对数损失，也称为逻辑损失或交叉熵损失。

`dask_ml.xgboost`: XGBoost¶

在 dask 数组或 dataframe 上训练 XGBoost 模型。

这可用于在集群上训练 XGBoost 模型。XGBoost 将与您现有的 dask.distributed 集群一起以分布式模式设置。

XGBClassifier(*[, objective])

属性

XGBRegressor(*[, objective])

属性

`train`(client, params, data, labels[, ...])	在 Dask 集群上训练 XGBoost 模型
`predict`(client, model, data)	使用 XGBoost 进行分布式预测

`dask_ml.datasets`: 数据集¶

dask-ml 提供了一些用于生成玩具数据集的工具集。

`make_counts`([n_samples, n_features, ...])	生成一个用于建模计数数据的虚拟数据集。
`make_blobs`([n_samples, n_features, centers, ...])	生成用于聚类的各向同性高斯斑点。
`make_regression`([n_samples, n_features, ...])	生成一个随机回归问题。
`make_classification`([n_samples, n_features, ...])
`make_classification_df`([n_samples, ...])	使用 make_classification 函数创建一个用于测试的 dask dataframe。

聚类

dask_ml.model_selection.train_test_split

API 参考

目录

API 参考¶

dask_ml.model_selection: 模型选择¶

dask_ml.ensemble: 集成方法¶

dask_ml.linear_model: 广义线性模型¶

dask_ml.naive_bayes: 朴素贝叶斯¶

dask_ml.wrappers: 元估计器¶

dask_ml.cluster: 聚类¶

dask_ml.decomposition: 矩阵分解¶

dask_ml.preprocessing: 数据预处理¶

dask_ml.feature_extraction.text: 特征提取¶

dask_ml.compose: 复合估计器¶

dask_ml.impute: 填充缺失数据¶

dask_ml.metrics: 度量¶