dask_ml.preprocessing.BlockTransformer

dask_ml.preprocessing.BlockTransformer

class dask_ml.preprocessing.BlockTransformer(func: Callable[[...], Union[dask_ml._typing.ArrayLike, pandas.core.frame.DataFrame, dask.dataframe.dask_expr._collection.DataFrame]], *, validate: bool = False, **kw_args: Any)

从任意可调用对象构造一个转换器

BlockTransformer 将 X 参数的块转发到用户定义的可调用对象,并返回该操作的结果。这对于可以在单元或块级别执行的无状态操作非常有用,例如计算频率的对数。一般来说,该转换器不适用于标准化等任务,因为这些任务需要列的完整信息。

参数
funccallable

用于转换的可调用对象。

validatebool, 可选,默认=False

指示在调用 func 之前是否应检查输入 X 数组。

func.

kw_argsdict, 可选

要传递给 func 的附加关键字参数字典。

示例

>>> import dask.datasets
>>> import pandas as pd
>>> from dask_ml.preprocessing import BlockTransformer
>>> df = dask.datasets.timeseries()
>>> df
... 
Dask DataFrame Structure:
                   id    name        x        y
npartitions=30
2000-01-01      int64  object  float64  float64
2000-01-02        ...     ...      ...      ...
...               ...     ...      ...      ...
2000-01-30        ...     ...      ...      ...
2000-01-31        ...     ...      ...      ...
Dask Name: make-timeseries, 30 tasks
>>> trn = BlockTransformer(pd.util.hash_pandas_object, index=False)
>>> trn.transform(df)
... 
Dask Series Structure:
npartitions=30
2000-01-01    uint64
2000-01-02       ...
            ...
2000-01-30       ...
2000-01-31       ...
dtype: uint64
Dask Name: hash_pandas_object, 60 tasks

方法

fit_transform(X[, y])

拟合数据,然后进行转换。

get_metadata_routing()

获取此对象的元数据路由。

get_params([deep])

获取此估计器的参数。

set_output(*[, transform])

设置输出容器。

set_params(**params)

设置此估计器的参数。

fit

transform

__init__(func: Callable[[...], Union[dask_ml._typing.ArrayLike, pandas.core.frame.DataFrame, dask.dataframe.dask_expr._collection.DataFrame]], *, validate: bool = False, **kw_args: Any)