更新日志
目录
更新日志¶
版本 2023.3.24¶
兼容 Python 3.10
停止支持 Python 3.7
兼容 scikit-learn 1.2.0 及更高版本
版本 2021.11.16¶
版本 2021.10.17¶
添加了对 scikit-learn 1.0.0 的支持。scikit-learn 1.0.0 现在是最低支持版本。
版本 1.9.0¶
版本 1.8.0¶
兼容 scikit-learn 0.24
版本 1.7.0¶
改进了与 PyTorch 模型一起工作的文档,详见 pytorch (GH#699)
改进了与 Keras / TensorFlow 模型一起工作的文档,详见 Keras 和 Tensorflow (GH#713)
修复了
dask_ml.feature_extraction.text.HashingVectorizer中远程词汇表的处理问题 (GH#719)新增
dask_ml.metrics.regression.mean_squared_log_error()(GH#725)允许用户在
dask_ml.preprocessing.OneHotEncoder中提供类别 (GH#727)新增
dask_ml.linear_model.LogisticRegression.decision_function()(GH#728)为
dask_ml.decomposition.TruncatedSVD添加compute参数 (GH#743)修复增量 PCA 中的符号稳定性问题 (GH#742)
版本 1.6.0¶
改进了 RandomizedSearchCV 的文档
改进了
dask_ml.cluster.KMeans中的日志记录 (GH#688)在
dask_ml.model_selection.HyperbandSearchCV中添加了对dask.dataframe对象的支持 (GH#701)为
dask_ml.metrics.mean_squared_error添加squared=True选项 (GH#707)
版本 1.5.0¶
支持 Python 3.8 (GH#669)
兼容 Scikit-Learn 0.23.0 (GH#669)
现在要求 Scikit-Learn 0.23.0 或更高版本 (GH#669)
移除先前弃用的 Partial 类。请改用
dask_ml.wrappers.Incremental(GH#674)
版本 1.4.0¶
新增
dask_ml.decomposition.IncrementalPCA用于核外 / 分布式增量 PCA (GH#619)改进了增量模型选择中的日志记录和监控 (GH#528)
新增
dask_ml.ensemble.BlockwiseVotingClassifier和dask_ml.ensemble.BlockwiseVotingRegressor用于块级训练和集成预测 (GH#657)
版本 1.3.0¶
为
dask_ml.model_selection.train_test_split()添加shuffle支持用于DataFrame输入 (GH#625)通过重用缓存任务改进了
dask_ml.model_selection.GridSearchCV的性能 (GH#622)为
dask_ml.model_selection.GridSearchCV添加对DataFrame的支持 (GH#612)修复
dask_ml.linear_model.LinearRegression.score()使用r2_score而不是mse的问题 (GH#614)处理
dask_ml.preprocessing.StandardScaler中的缺失数据 (GH#608)
版本 1.2.0¶
更改了
model_selection.IncrementalSearchCV中第二个位置参数的名称,从param_distribution改为parameters,以匹配基类的名称。兼容 scikit-learn 0.22.1。
新增
dask_ml.preprocessing.BlockTransfomer,它是 scikit-learn 的 FunctionTransformer 的扩展 (GH#366)。新增
dask_ml.feature_extraction.FeatureHasher,它类似于 scikit-learn 的实现。
版本 1.1.0¶
dask_ml.wrappers.Incremental现在允许非数组(例如 Dask Bags 和 DataFrames)。这对于文本分类管道很有用 (pr:570)DataFrame 输入的索引现在在
dask_ml.preprocessing.PolynomialFeatures中得到保留 (GH#563)dask_ml.decomposition.PCA现在兼容 DataFrame 输入 (GH#543)dask_ml.cluster.KMeans处理某些块长度为 0 的输入 (GH#559)改进了
dask_ml.model_selection.train_test_split()中混合输入的错误报告 (GH#552)移除弃用的
dask_ml.joblib模块。请改用joblib.parallel_backend(GH#545)dask_ml.preprocessing.QuantileTransformer现在处理 DataFrame 输入 (GH#533)
版本 1.0.0¶
新增超参数搜索元估计器,用于在分布式数据集上进行超参数搜索:
HyperbandSearchCV和SuccessiveHalvingSearchCV停止支持 Python 2 (GH#500)
版本 0.13.0¶
兼容 scikit-learn 0.21.1
GridSearchCV和RandomizedSearchCV中的交叉验证结果现在在完成后立即收集,以防 worker 丢失 (GH#433)修复
dask_ml.model_selection.train_test_split()中只提供训练集或测试集大小时的错误 (GH#502)修复 32 位 Windows 构建的各种问题 (GH#487)
注意
dask-ml 0.13.0 将是最后一个支持 Python 2 的版本。
版本 0.12.0¶
API 破坏性变更¶
dask_ml.model_selection.IncrementalSearchCV现在为.predict等后置拟合方法返回 Dask 对象 (GH#423)。
版本 0.11.0¶
请注意,此版本的 Dask-ML 需要 scikit-learn >= 0.20.0。
增强功能¶
新增
dask_ml.model_selection.IncrementalSearchCV,一个用于大于内存数据集的超参数优化元估计器 (GH#356)。详见 增量超参数优化。新增
dask_ml.preprocessing.PolynomialTransformer,scikit-learn 版本的直接替换品 (GH#347)。为
dask_ml.model_selection.ParallelPostFit中特征维度有多个块的 Dask 数组添加自动重分块功能 (GH#376)为
dask_ml.cluster.KMeans添加对 Dask DataFrame 输入的支持 (GH#390)为
dask_ml.wrappers.ParallelPostFit.score()添加compute关键字,以支持延迟评估模型的得分 (GH#402)
错误修复¶
修改
dask_ml.wrappers.ParallelPostFit,当输入数组在特征维度有多个块时,自动对方法(如predict)的输入数组进行重分块 (GH#376)。修复
dask_ml.impute.SimpleImputer在填充最常见项的计数而不是项本身时出现的错误 (GH#385)。修复
dask_ml.model_selection.ShuffleSplit在设置random_state时返回相同分割的问题 (GH#380)。
版本 0.9.0¶
增强功能¶
错误修复¶
修复
dask_ml.model_selection.GridSearchCV和dask_ml.model_selection.RandomizedSearchCV在预测和评分步骤中处理错误的问题 (GH#339)dask_ml.preprocessing.LabelEncoder兼容 Dask 0.18 (性能也有提升) (GH#336)。
版本 0.8.0¶
增强功能¶
在 Incremental 中自动用 Dask 感知版本替换默认的 scikit-learn 评分器 (GH#200)
新增
dask_ml.metrics.log_loss()损失函数和neg_log_loss评分器 (GH#318)修复了 GridSearchCV 和 BaseSearchCV 中处理类数组 fit 参数的问题 (GH#320)
版本 0.7.0¶
增强功能¶
为
dask_ml.metrics.accuracy_score()添加sample_weight支持。 (GH#217)改进了在
dask_ml.cluster.SpectralClustering上训练的性能 (GH#152)修复
model_selection元估计器不遵守默认 Dask 调度器的问题 (GH#260)
API 破坏性变更¶
移除
dask_ml.cluster.SpectralClustering中的basis_inds_属性,因为它不再使用 (GH#152)将
dask_ml.wrappers.Incremental.fit()修改为在训练前克隆底层估计器 (GH#258)。这带来了一些改变底层估计器不再能访问诸如
coef_之类的学习属性。我们建议使用Incremental.coef_。连续的
fit调用之间不再发生状态泄露。请注意,如果您希望重用状态(例如学习属性或随机种子),仍然可以使用Incremental.partial_fit()。如果您对训练数据进行多次传递,这很有用。
将
dask_ml.wrappers.Incremental的get_params和set_params修改为不再“神奇地”获取/设置底层估计器的参数 (GH#258)。要指定底层估计器的参数,请使用 scikit-learn 建立的双下划线前缀约定inc.set_params('estimator__alpha': 10)
重组¶
Dask-SearchCV 现在在 dask/dask-ml 仓库中开发。先前安装 dask-searchcv 的用户现在只需安装 dask-ml。
版本 0.6.0¶
API 破坏性变更¶
从增量学习器的
fit方法中移除 get 关键字。 (GH#187)弃用各种
Partial*估计器,推荐使用dask_ml.wrappers.Incremental元估计器 (GH#190)
增强功能¶
新增元估计器
dask_ml.wrappers.Incremental,用于封装任何具有 partial_fit 方法的估计器。详见 增量元估计器。 (GH#190)新增 R2-score 指标
dask_ml.metrics.r2_score()。
版本 0.5.0¶
API 破坏性变更¶
dask_ml.preprocessing.StandardScalar上的 n_samples_seen_ 属性现在始终为numpy.nan(GH#157)。修改了
dask_ml.datasets.make_blobs()、dask_ml.datasets.make_regression()和dask_ml.datasets.make_classfication()的算法,以减少单机峰值内存使用 (GH#67)
增强功能¶
新增
dask_ml.model_selection.train_test_split()和dask_ml.model_selection.ShuffleSplit(GH#172)新增
dask_ml.metrics.classification_score()、dask_ml.metrics.mean_absolute_error()和dask_ml.metrics.mean_squared_error()。
版本 0.4.1¶
此版本新增了几个估计器。
增强功能¶
新增 dask_ml.preprocessing.RobustScaler¶
使用对异常值稳健的统计数据对特征进行缩放。这与 sklearn.preprocessing.RobustScalar 相仿 (GH#62)。
新增 dask_ml.preprocessing.OrdinalEncoder¶
将分类特征编码为有序特征 (GH#119)。
新增 dask_ml.wrappers.ParallelPostFit¶
一个元估计器,用于使用任何 scikit-learn 估计器进行拟合,但在 Dask 数组上进行并行后处理(predict、transform 等)。详见 并行元估计器 (GH#132)。