dask_ml.metrics.log_loss

dask_ml.metrics.log_loss¶

dask_ml.metrics.log_loss(y_true, y_pred, eps=1e-15, normalize=True, sample_weight=None, labels=None)¶

对数损失，又称逻辑损失或交叉熵损失。

这是（多项式）逻辑回归及其扩展（如神经网络）中使用的损失函数，定义为逻辑模型的负对数似然，该模型为其训练数据 y_true 返回 y_pred 概率。对数损失仅适用于两个或更多标签。对于真实标签为 \(y \in \{0,1\}\) 的单个样本以及概率估计 \(p = \operatorname{Pr}(y = 1)\)，对数损失为

\[L_{\log}(y, p) = -(y \log (p) + (1 - y) \log (1 - p))\]

在用户指南中阅读更多信息。

参数

y_true类数组或标签指示矩阵

n_samples 样本的真实（正确）标签。

y_pred类浮点数组，形状 = (n_samples, n_classes) 或 (n_samples,)

预测的概率，由分类器的 predict_proba 方法返回。如果 y_pred.shape = (n_samples,)，则提供的概率被认为是正类的概率。假设 y_pred 中的标签按字母顺序排序，就像 LabelBinarizer 所做的那样。

y_pred 值将被截断到 [eps, 1-eps] 范围内，其中 eps 是 y_pred 数据类型的机器精度。

normalize布尔值，默认为 True

如果为 True，返回每个样本的平均损失。否则，返回每个样本损失的总和。

sample_weight形状为 (n_samples,) 的类数组，默认为 None

样本权重。

labels类数组，默认为 None

如果未提供，标签将从 y_true 中推断。如果 labels 为 None 并且 y_pred 的形状为 (n_samples,)，则假定标签为二元的，并从 y_true 中推断。

0.18 版本新增。

返回

loss浮点数: 对数损失，又称逻辑损失或交叉熵损失。

注意

使用的对数是自然对数（以 e 为底）。

参考文献

C.M. Bishop (2006). Pattern Recognition and Machine Learning. Springer, p. 209.

示例

>>> from sklearn.metrics import log_loss
>>> log_loss(["spam", "ham", "ham", "spam"],
...          [[.1, .9], [.9, .1], [.8, .2], [.35, .65]])
0.21616...

dask_ml.metrics.accuracy_score

dask_ml.xgboost.XGBClassifier