作者:Will Badr
翻译:顾伟嵩
校对:欧阳锦
无论是通过辨认错误照样主动预防,检测异常值对任何买卖都是紧张的。本文将商议五种检测异常值的方法。
什么是异常值?
在统计学中,异常值是指不属于某一特定群体的内容点。它是一个与其他数值大不雷同的异常观测值,与优越构成的内容组相背离。
例如,你能够清楚地看到这个列内外的异常值:[20, 24, 22, 19, 29, 18, 4300, 30, 18].
当观测值仅仅是一堆数字而且是一维时,很容易辨认出异常值。然则,当你有成千上万的观测值或者是多维度时,你将必要更多巧妙的法子来检测出那些异常值。这便是本文要商议的数据。
为什么我们要存眷异常值?
检测异常值是内容挖掘中的焦点问题之一。内容的络续扩增和持续增长,以及物联网设备的遍及,让我们重新思虑处理异常值的方法和观测异常值构建出的用例。
如今,我们拥有能够检测我们每分钟心跳的智能腕表和腕带。检测心跳内容的异常值有助于预防与心脏有关的疾病。交通模式中的异常值有助于预防交通事故。异常值检测还能够用来辨认服务器之间的收集根蒂设施和通讯的障碍。因此,创建在检测异常值之上的用例息争决方案是无限无尽的。
另一个我们必要检测异常值的理由是,当为呆板学习模型准备内容集时,检测出所有的异常值,而且要么移除它们、要么阐发它们来认识它们最初存在的原因是非常紧张的。
如今,让我们从最简洁的方法起头索求5种常用的检测异常值的方法。
方法1——尺度差:
在统计学中,如果一个内容分布式近似正态分布,那么大约68%的内容值在均匀值的前后一个尺度差范围内,大约95%的内容值在均匀值的前后两个尺度差范围内,大约99.7%的内容值在前后三个尺度差的范围内。
因此,如果你有任何显现在三个尺度差范围外的内容点,那么那些点就极有可能是异常值。
让我们看看代码。
这段代码的输出效果是一个大于80或小于-40的内容列表。请注意,我传入的内容集是一个一维内容集。如今,让我们索求对于多维内容集的更高级的方法。
方法2——箱线图:
箱线图是指通过分位数对数值型内容的图形化描述。这是一种非常简洁但有效的异常值可视化方法。把上下须触线看作内容分布的上下界限。任何显现在下须触线下面或上须触线上面的内容点能够被看作异常值。下面是绘制箱线图的代码:
上面的代码输出如下的箱线图。如你所见,它把大于75或小于-35的值看作异常值。这个效果非常靠近上述的方法1获得的效果。
箱线图分解:
四分位差的概念是被用来绘制详细图的。四分位差是统计学中通过将内容集划分为四分位数来衡量统计离散度和内容可变性的概念。
简而言之,任何内容集或任何察看值的鸠合被划分为四个基于内容值和它们与整个内容集对照后而界说的区间。四分位数是指将内容分为三个点和四个区间的内容点。
本文地址:http://www.wbwb.net/bianchengyuyan/225074.html 转载请注明出处!