dask_ml.metrics.r2_score

dask_ml.metrics.r2_score¶

dask_ml.metrics.r2_score(y_true: dask_ml._typing.ArrayLike, y_pred: dask_ml._typing.ArrayLike, sample_weight: Optional[dask_ml._typing.ArrayLike] = None, multioutput: Optional[str] = 'uniform_average', compute: bool = True) → dask_ml._typing.ArrayLike¶

\(R^2\) (决定系数) 回归评分函数。

此文档字符串复制自 sklearn.metrics.r2_score。

可能存在与 Dask 版本的一些不一致之处。

最佳可能得分为 1.0，也可以为负值（因为模型可能会任意差）。在真实 y 非恒定的通常情况下，一个忽略输入特征始终预测平均 y 的常数模型将获得 0.0 的 \(R^2\) 得分。

在 y_true 特殊情况下是常数时， \(R^2\) 得分不是有限的：它要么是 NaN （完美预测），要么是 -Inf （不完美预测）。为了防止此类非有限数污染更高级别的实验（例如网格搜索交叉验证），默认情况下，这些情况分别替换为 1.0（完美预测）或 0.0（不完美预测）。您可以将 force_finite 设置为 False 以防止此修正发生。

注意：当预测残差的均值为零时， \(R^2\) 得分与 Explained Variance score 相同。

在 User Guide 中阅读更多内容。

参数

y_true形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组

真实（正确）目标值。

y_pred形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组

估计的目标值。

sample_weight形状为 (n_samples,) 的类数组，默认值为 None

样本权重。

multioutput{‘raw_values’, ‘uniform_average’, ‘variance_weighted’}，形状为 (n_outputs,) 的类数组或 None，默认值为 ‘uniform_average’

定义多个输出分数的聚合方式。类数组值定义用于平均分数的权重。默认值为 “uniform_average”。

‘raw_values’: 在多输出输入的情况下返回完整的分数集合。
‘uniform_average’: 所有输出的分数以均匀权重进行平均。
‘variance_weighted’: 所有输出的分数以各个输出的方差为权重进行平均。

在 0.19 版本中更改：multioutput 的默认值为 ‘uniform_average’。

force_finitebool，默认值为 True（Dask 中不支持）

标志，指示是否应将因常数数据导致的 NaN 和 -Inf 分数替换为实数（如果预测完美，则为 1.0，否则为 0.0）。默认值为 True，这是超参数搜索过程（例如网格搜索交叉验证）的便捷设置。

在 1.1 版本新增。

返回值

zfloat 或 ndarray of floats: 如果 ‘multioutput’ 为 ‘raw_values’，则为 \(R^2\) 得分或得分的 ndarray。

注意

这不是一个对称函数。

与其他大多数得分不同， \(R^2\) 得分可能为负值（它实际上不必是量 R 的平方）。

此度量对于单个样本未明确定义，如果 n_samples 小于两个，将返回 NaN 值。

参考

1: 维基百科关于决定系数的条目

示例

>>> from sklearn.metrics import r2_score  
>>> y_true = [3, -0.5, 2, 7]  
>>> y_pred = [2.5, 0.0, 2, 8]  
>>> r2_score(y_true, y_pred)  
0.948...
>>> y_true = [[0.5, 1], [-1, 1], [7, -6]]  
>>> y_pred = [[0, 2], [-1, 2], [8, -5]]  
>>> r2_score(y_true, y_pred,  
...          multioutput='variance_weighted')
0.938...
>>> y_true = [1, 2, 3]  
>>> y_pred = [1, 2, 3]  
>>> r2_score(y_true, y_pred)  
1.0
>>> y_true = [1, 2, 3]  
>>> y_pred = [2, 2, 2]  
>>> r2_score(y_true, y_pred)  
0.0
>>> y_true = [1, 2, 3]  
>>> y_pred = [3, 2, 1]  
>>> r2_score(y_true, y_pred)  
-3.0
>>> y_true = [-2, -2, -2]  
>>> y_pred = [-2, -2, -2]  
>>> r2_score(y_true, y_pred)  
1.0
>>> r2_score(y_true, y_pred, force_finite=False)  
nan
>>> y_true = [-2, -2, -2]  
>>> y_pred = [-2, -2, -2 + 1e-8]  
>>> r2_score(y_true, y_pred)  
0.0
>>> r2_score(y_true, y_pred, force_finite=False)  
-inf

dask_ml.metrics.mean_squared_log_error

dask_ml.metrics.accuracy_score