更新日志
目录
更新日志¶
版本 2023.3.24¶
兼容 Python 3.10
停止支持 Python 3.7
兼容 scikit-learn 1.2.0 及更高版本
版本 2021.11.16¶
版本 2021.10.17¶
添加了对 scikit-learn 1.0.0 的支持。scikit-learn 1.0.0 现在是最低支持版本。
版本 1.9.0¶
版本 1.8.0¶
兼容 scikit-learn 0.24
版本 1.7.0¶
改进了与 PyTorch 模型一起工作的文档,详见 pytorch (GH#699)
改进了与 Keras / TensorFlow 模型一起工作的文档,详见 Keras 和 Tensorflow (GH#713)
修复了
dask_ml.feature_extraction.text.HashingVectorizer
中远程词汇表的处理问题 (GH#719)新增
dask_ml.metrics.regression.mean_squared_log_error()
(GH#725)允许用户在
dask_ml.preprocessing.OneHotEncoder
中提供类别 (GH#727)新增
dask_ml.linear_model.LogisticRegression.decision_function()
(GH#728)为
dask_ml.decomposition.TruncatedSVD
添加compute
参数 (GH#743)修复增量 PCA 中的符号稳定性问题 (GH#742)
版本 1.6.0¶
改进了 RandomizedSearchCV 的文档
改进了
dask_ml.cluster.KMeans
中的日志记录 (GH#688)在
dask_ml.model_selection.HyperbandSearchCV
中添加了对dask.dataframe
对象的支持 (GH#701)为
dask_ml.metrics.mean_squared_error
添加squared=True
选项 (GH#707)
版本 1.5.0¶
支持 Python 3.8 (GH#669)
兼容 Scikit-Learn 0.23.0 (GH#669)
现在要求 Scikit-Learn 0.23.0 或更高版本 (GH#669)
移除先前弃用的 Partial 类。请改用
dask_ml.wrappers.Incremental
(GH#674)
版本 1.4.0¶
新增
dask_ml.decomposition.IncrementalPCA
用于核外 / 分布式增量 PCA (GH#619)改进了增量模型选择中的日志记录和监控 (GH#528)
新增
dask_ml.ensemble.BlockwiseVotingClassifier
和dask_ml.ensemble.BlockwiseVotingRegressor
用于块级训练和集成预测 (GH#657)
版本 1.3.0¶
为
dask_ml.model_selection.train_test_split()
添加shuffle
支持用于DataFrame
输入 (GH#625)通过重用缓存任务改进了
dask_ml.model_selection.GridSearchCV
的性能 (GH#622)为
dask_ml.model_selection.GridSearchCV
添加对DataFrame
的支持 (GH#612)修复
dask_ml.linear_model.LinearRegression.score()
使用r2_score
而不是mse
的问题 (GH#614)处理
dask_ml.preprocessing.StandardScaler
中的缺失数据 (GH#608)
版本 1.2.0¶
更改了
model_selection.IncrementalSearchCV
中第二个位置参数的名称,从param_distribution
改为parameters
,以匹配基类的名称。兼容 scikit-learn 0.22.1。
新增
dask_ml.preprocessing.BlockTransfomer
,它是 scikit-learn 的 FunctionTransformer 的扩展 (GH#366)。新增
dask_ml.feature_extraction.FeatureHasher
,它类似于 scikit-learn 的实现。
版本 1.1.0¶
dask_ml.wrappers.Incremental
现在允许非数组(例如 Dask Bags 和 DataFrames)。这对于文本分类管道很有用 (pr:570)DataFrame 输入的索引现在在
dask_ml.preprocessing.PolynomialFeatures
中得到保留 (GH#563)dask_ml.decomposition.PCA
现在兼容 DataFrame 输入 (GH#543)dask_ml.cluster.KMeans
处理某些块长度为 0 的输入 (GH#559)改进了
dask_ml.model_selection.train_test_split()
中混合输入的错误报告 (GH#552)移除弃用的
dask_ml.joblib
模块。请改用joblib.parallel_backend
(GH#545)dask_ml.preprocessing.QuantileTransformer
现在处理 DataFrame 输入 (GH#533)
版本 1.0.0¶
新增超参数搜索元估计器,用于在分布式数据集上进行超参数搜索:
HyperbandSearchCV
和SuccessiveHalvingSearchCV
停止支持 Python 2 (GH#500)
版本 0.13.0¶
兼容 scikit-learn 0.21.1
GridSearchCV
和RandomizedSearchCV
中的交叉验证结果现在在完成后立即收集,以防 worker 丢失 (GH#433)修复
dask_ml.model_selection.train_test_split()
中只提供训练集或测试集大小时的错误 (GH#502)修复 32 位 Windows 构建的各种问题 (GH#487)
注意
dask-ml 0.13.0 将是最后一个支持 Python 2 的版本。
版本 0.12.0¶
API 破坏性变更¶
dask_ml.model_selection.IncrementalSearchCV
现在为.predict
等后置拟合方法返回 Dask 对象 (GH#423)。
版本 0.11.0¶
请注意,此版本的 Dask-ML 需要 scikit-learn >= 0.20.0。
增强功能¶
新增
dask_ml.model_selection.IncrementalSearchCV
,一个用于大于内存数据集的超参数优化元估计器 (GH#356)。详见 增量超参数优化。新增
dask_ml.preprocessing.PolynomialTransformer
,scikit-learn 版本的直接替换品 (GH#347)。为
dask_ml.model_selection.ParallelPostFit
中特征维度有多个块的 Dask 数组添加自动重分块功能 (GH#376)为
dask_ml.cluster.KMeans
添加对 Dask DataFrame 输入的支持 (GH#390)为
dask_ml.wrappers.ParallelPostFit.score()
添加compute
关键字,以支持延迟评估模型的得分 (GH#402)
错误修复¶
修改
dask_ml.wrappers.ParallelPostFit
,当输入数组在特征维度有多个块时,自动对方法(如predict
)的输入数组进行重分块 (GH#376)。修复
dask_ml.impute.SimpleImputer
在填充最常见项的计数而不是项本身时出现的错误 (GH#385)。修复
dask_ml.model_selection.ShuffleSplit
在设置random_state
时返回相同分割的问题 (GH#380)。
版本 0.9.0¶
增强功能¶
错误修复¶
修复
dask_ml.model_selection.GridSearchCV
和dask_ml.model_selection.RandomizedSearchCV
在预测和评分步骤中处理错误的问题 (GH#339)dask_ml.preprocessing.LabelEncoder
兼容 Dask 0.18 (性能也有提升) (GH#336)。
版本 0.8.0¶
增强功能¶
在 Incremental 中自动用 Dask 感知版本替换默认的 scikit-learn 评分器 (GH#200)
新增
dask_ml.metrics.log_loss()
损失函数和neg_log_loss
评分器 (GH#318)修复了 GridSearchCV 和 BaseSearchCV 中处理类数组 fit 参数的问题 (GH#320)
版本 0.7.0¶
增强功能¶
为
dask_ml.metrics.accuracy_score()
添加sample_weight
支持。 (GH#217)改进了在
dask_ml.cluster.SpectralClustering
上训练的性能 (GH#152)修复
model_selection
元估计器不遵守默认 Dask 调度器的问题 (GH#260)
API 破坏性变更¶
移除
dask_ml.cluster.SpectralClustering
中的basis_inds_
属性,因为它不再使用 (GH#152)将
dask_ml.wrappers.Incremental.fit()
修改为在训练前克隆底层估计器 (GH#258)。这带来了一些改变底层估计器不再能访问诸如
coef_
之类的学习属性。我们建议使用Incremental.coef_
。连续的
fit
调用之间不再发生状态泄露。请注意,如果您希望重用状态(例如学习属性或随机种子),仍然可以使用Incremental.partial_fit()
。如果您对训练数据进行多次传递,这很有用。
将
dask_ml.wrappers.Incremental
的get_params
和set_params
修改为不再“神奇地”获取/设置底层估计器的参数 (GH#258)。要指定底层估计器的参数,请使用 scikit-learn 建立的双下划线前缀约定inc.set_params('estimator__alpha': 10)
重组¶
Dask-SearchCV 现在在 dask/dask-ml
仓库中开发。先前安装 dask-searchcv
的用户现在只需安装 dask-ml
。
版本 0.6.0¶
API 破坏性变更¶
从增量学习器的
fit
方法中移除 get 关键字。 (GH#187)弃用各种
Partial*
估计器,推荐使用dask_ml.wrappers.Incremental
元估计器 (GH#190)
增强功能¶
新增元估计器
dask_ml.wrappers.Incremental
,用于封装任何具有 partial_fit 方法的估计器。详见 增量元估计器。 (GH#190)新增 R2-score 指标
dask_ml.metrics.r2_score()
。
版本 0.5.0¶
API 破坏性变更¶
dask_ml.preprocessing.StandardScalar
上的 n_samples_seen_ 属性现在始终为numpy.nan
(GH#157)。修改了
dask_ml.datasets.make_blobs()
、dask_ml.datasets.make_regression()
和dask_ml.datasets.make_classfication()
的算法,以减少单机峰值内存使用 (GH#67)
增强功能¶
新增
dask_ml.model_selection.train_test_split()
和dask_ml.model_selection.ShuffleSplit
(GH#172)新增
dask_ml.metrics.classification_score()
、dask_ml.metrics.mean_absolute_error()
和dask_ml.metrics.mean_squared_error()
。
版本 0.4.1¶
此版本新增了几个估计器。
增强功能¶
新增 dask_ml.preprocessing.RobustScaler
¶
使用对异常值稳健的统计数据对特征进行缩放。这与 sklearn.preprocessing.RobustScalar
相仿 (GH#62)。
新增 dask_ml.preprocessing.OrdinalEncoder
¶
将分类特征编码为有序特征 (GH#119)。
新增 dask_ml.wrappers.ParallelPostFit
¶
一个元估计器,用于使用任何 scikit-learn 估计器进行拟合,但在 Dask 数组上进行并行后处理(predict
、transform
等)。详见 并行元估计器 (GH#132)。