广义线性模型

广义线性模型

LinearRegression([penalty, dual, tol, C, ...])

线性回归估计器。

LogisticRegression([penalty, dual, tol, C, ...])

逻辑回归估计器。

PoissonRegression([penalty, dual, tol, C, ...])

泊松回归估计器。

广义线性模型是一类广泛使用的模型。这些实现在单机或分布式集群上都能很好地扩展到大型数据集。它们可以由多种优化算法提供支持,并使用多种正则项。

它们遵循 scikit-learn 估计器 API,因此可以轻松集成到网格搜索和管道等现有例程中,但使用新的、可扩展的算法在外部实现,因此可以处理分布式 Dask 数组和 DataFrame,而不仅仅是单机 NumPy 和 Pandas 数组和 DataFrame。

示例

In [1]: from dask_ml.linear_model import LogisticRegression

In [2]: from dask_ml.datasets import make_classification

In [3]: X, y = make_classification(chunks=50)

In [4]: lr = LogisticRegression()

In [5]: lr.fit(X, y)
Out[5]: LogisticRegression()

算法

admm(X, y[, regularizer, lamduh, rho, ...])

交替方向乘子法

gradient_descent(X, y[, max_iter, tol, family])

Michael Grant 实现的梯度下降。

lbfgs(X, y[, regularizer, lamduh, max_iter, ...])

使用 scipy.optimize 实现的 L-BFGS 求解器

newton(X, y[, max_iter, tol, family])

牛顿法用于逻辑回归。

proximal_grad(X, y[, regularizer, lamduh, ...])

近端梯度法

正则项

ElasticNet([weight])

弹性网络正则化。

L1()

L1 正则化。

L2()

L2 正则化。

Regularizer()

正则化对象的抽象基类。