使用 Python 进行数据扩展

2023年07月05日由 Susan 发表 738959 0

在机器学习过程中，数据缩放属于数据预处理或特征工程的范畴。在用于模型构建之前对数据进行缩放可以实现以下目标：

缩放确保特征具有相同的数值范围。

缩放确保用于模型构建的特征是无量纲的。

缩放可用于检测异常值。

有几种方法可用于缩放数据。两个最重要的缩放技术是规范化和标准化。

使用规范化进行数据缩放

当使用规范化缩放数据时，可以使用此公式计算转换后的数据

方程

在哪里Xmax和Xmin分别是数据的最大值和最小值。获得的缩放数据在[0,1] 范围内

规范化的 Python 实现

使用规范化的扩展可以在 Python 中使用以下代码实现：

from sklearn.preprocessing import Normalizer

norm = Normalizer()

X_norm = norm.fit_transform(data)
设 X 为给定数据Xmax=17.7和 Xmax = 71.4。数据X如下图所示

图1.数据 X 的箱线图，值介于 17.7 和 71.4 之间。

归一化的 X 如下图所示：

图2.值介于 0 和 1 之间的规范化 X。

使用标准化进行数据扩展

理想情况下，在数据服从正态或高斯分布时，应使用标准化。标准化后的数据可以按如下方式计算：

方程

这里，×是数据的平均值，并且 Ó×是标准差。标准化值通常应位于[-2,2] 范围内，表示 95% 置信区间。小于-2 或大于 2 的标准化值可被视为异常值。因此，标准化可用于异常值检测。

Python标准化的实现

可以使用以下代码在 Python 中实现标准化的扩展：

from sklearn.preprocessing import StandardScaler

stdsc = StandardScaler()

X_std = stdsc.fit_transform(data)

使用上述数据，标准化数据如下所示：

图3.标准化 X. 作者图片

标准化均值为零。从上图中我们观察到，除了少数异常值外，大多数标准化数据都在 [-2， 2] 范围内。

结论

总之，我们讨论了两种最流行的特征扩展方法，即：标准化和规范化。规范化数据位于 [0， 1] 范围内，而标准化数据通常位于 [-2， 2] 范围内。标准化的优点是可用于异常值检测。

来源：https://www.kdnuggets.com/2023/07/data-scaling-python.html

标签：

Python 学习人工智能数据扩展

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇如何使用ChatGPT制作AI图像（免费和付费）

下一篇 Outpaint AI：释放你的创意潜能！

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）