API 参考
目录
API 参考¶
本页列出了 dask_ml
中的所有估计器和顶层函数。除非另有说明,dask-ml
中实现的估计器适用于并行和分布式训练。
dask_ml.model_selection
: 模型选择¶
用于超参数优化的工具集。
这些估计器将并行运行。其可扩展性取决于所使用的底层估计器。
Dask-ML 提供了一些交叉验证工具。
|
将数组分割成随机训练和测试矩阵。 |
model_selection.train_test_split()
是一个简单的辅助函数,内部使用 model_selection.ShuffleSplit
。
|
随机置换交叉验证器。 |
|
K折交叉验证器 |
Dask-ML 提供了网格搜索和随机搜索的直接替换。这些方法适用于交叉验证分割可以放入内存的数据集。
|
对估计器的指定参数值进行穷举搜索。 |
|
对超参数进行随机搜索。 |
对于大于内存的数据集的超参数优化,Dask-ML 提供以下工具
|
对支持 partial_fit 的模型进行超参数增量搜索 |
|
使用自适应交叉验证算法寻找特定模型的最佳参数。 |
执行逐次折半算法 [R424ea1a907b1-1]。 |
|
|
对支持 partial_fit 的模型进行超参数增量搜索 |
dask_ml.ensemble
: 集成方法¶
|
块式训练和集成投票分类器。 |
|
块式训练和集成投票回归器。 |
dask_ml.linear_model
: 广义线性模型¶
dask_ml.linear_model
模块实现了用于分类和回归的线性模型。
|
线性回归估计器。 |
|
逻辑回归估计器。 |
|
泊松回归估计器。 |
dask_ml.naive_bayes
: 朴素贝叶斯¶
|
使用高斯似然拟合朴素贝叶斯模型 |
dask_ml.wrappers
: 元估计器¶
dask-ml 提供了一些元估计器,有助于使用遵循 scikit-learn API 的常规估计器。这些元估计器使得底层估计器能够很好地与 Dask 数组或 DataFrame 一起工作。
|
用于并行预测和转换的元估计器。 |
|
用于将 Dask 数组按块送入估计器的元估计器。 |
dask_ml.cluster
: 聚类¶
无监督聚类算法
|
用于聚类的可伸缩 KMeans |
|
应用并行谱聚类 |
dask_ml.decomposition
: 矩阵分解¶
|
增量主成分分析 (IPCA)。 |
|
主成分分析 (PCA) |
|
方法 |
dask_ml.preprocessing
: 数据预处理¶
用于数据预处理的工具集。
|
通过移除均值并将方差缩放到单位方差来标准化特征。 |
|
使用对异常值具有鲁棒性的统计量来缩放特征。 |
|
通过将每个特征缩放到给定范围来转换特征。 |
|
使用分位数信息转换特征。 |
|
将 DataFrame 的列转换为分类 dtype。 |
|
对分类列进行虚拟变量(独热)编码。 |
|
对分类列进行顺序(整数)编码。 |
|
对标签进行编码,使其值介于 0 和 n_classes-1 之间。 |
|
生成多项式和交互特征。 |
|
从任意可调用对象构造一个转换器 |
dask_ml.feature_extraction.text
: 特征提取¶
|
将文本文件集合转换为词频矩阵 |
将文本文件集合转换为词出现矩阵。 |
|
实现特征哈希,也称为哈希技巧。 |
dask_ml.compose
: 复合估计器¶
用于使用转换器构建复合模型的元估计器。
用于使用多个转换器组合模型的元估计器。
这些估计器对于处理异构表格数据很有用。
|
将转换器应用于数组或 pandas DataFrame 的列。 |
从给定的转换器构造 ColumnTransformer。 |
dask_ml.impute
: 填充缺失数据¶
|
方法 |
dask_ml.metrics
: 度量¶
评分函数、性能度量和成对距离计算。
回归度量¶
|
平均绝对误差回归损失。 |
平均绝对百分比误差回归损失。 |
|
|
均方误差回归损失。 |
|
均方对数误差回归损失。 |
|
\(R^2\) (决定系数) 回归评分函数。 |
分类度量¶
|
准确度分类评分。 |
|
对数损失,也称为逻辑损失或交叉熵损失。 |
dask_ml.xgboost
: XGBoost¶
在 dask 数组或 dataframe 上训练 XGBoost 模型。
这可用于在集群上训练 XGBoost 模型。XGBoost 将与您现有的 dask.distributed
集群一起以分布式模式设置。
|
|
|
|
|
在 Dask 集群上训练 XGBoost 模型 |
|
使用 XGBoost 进行分布式预测 |
dask_ml.datasets
: 数据集¶
dask-ml 提供了一些用于生成玩具数据集的工具集。
|
生成一个用于建模计数数据的虚拟数据集。 |
|
生成用于聚类的各向同性高斯斑点。 |
|
生成一个随机回归问题。 |
|
|
|
使用 make_classification 函数创建一个用于测试的 dask dataframe。 |