dask_ml.ensemble.BlockwiseVotingClassifier
dask_ml.ensemble
.BlockwiseVotingClassifier¶
- class dask_ml.ensemble.BlockwiseVotingClassifier(estimator, voting='hard', classes=None)¶
分块训练和集成投票分类器。
此分类器在 Dask 数组或 DataFrame 的块/分区上进行训练。将在 Dask 集合的每个块或分区上独立拟合 estimator 的克隆版本。当子估计器仅处理小型内存数据结构(如 NumPy 数组或 pandas DataFrame)时,这非常有用。
预测由学习模型的集成完成。
警告
确保在训练前充分打乱数据!如果数据集的不同块/分区的值分布不相似,则分类器将给出较差的结果。
- 参数
- estimator估计器
- votingstr, {‘hard’, ‘soft’} (默认值=’hard’)
如果设置为 ‘hard’,则使用预测的类别标签进行多数投票。如果设置为 ‘soft’,则基于预测概率总和的 argmax 预测类别标签,这推荐用于良好校准的分类器集成。
- classeslist-like, 可选
y 可能取值的类别集合。如果底层估计器在拟合时需要 classes,这也可以作为 fit 参数提供。
- 属性
- estimators_分类器列表
在输入数据的每个分区/块上拟合 estimator 后得到的已拟合子估计器集合。
- classes_array-like, 形状 (n_predictions,)
类别标签。
示例
>>> import dask_ml.datasets >>> import dask_ml.ensemble >>> import sklearn.linear_model >>> X, y = dask_ml.datasets.make_classification(n_samples=100_000, >>> ... chunks=10_000) >>> subestimator = sklearn.linear_model.RidgeClassifier(random_state=0) >>> clf = dask_ml.ensemble.BlockwiseVotingClassifier( >>> ... subestimator, >>> ... classes=[0, 1] >>> ... ) >>> clf.fit(X, y)
方法
get_metadata_routing
()获取此对象的元数据路由。
get_params
([deep])获取此估计器的参数。
score
(X, y[, sample_weight])返回给定测试数据和标签的平均准确率。
set_params
(**params)设置此估计器的参数。
set_score_request
(*[, sample_weight])请求传递给
score
方法的元数据。fit
predict
- __init__(estimator, voting='hard', classes=None)¶