造价通

反馈
取消

热门搜词

造价通

取消 发送 反馈意见

统计模式识别基本过程

2022/07/16147 作者:佚名
导读:统计模式识别数据采集与预处理 数据的采集是进行统计模式识别验证的前提条件。一个性能良好的识别系统一定需要首先捕获到好的特征数据。利用这些数据,我们就可以进行后续的预处理、特征提取、特征选择等工作。一般来说,这里的数据采集肯定需要借助相应的硬件设备,诸如,声音传感器、图像传感器等等。如果传感器的灵敏度不高,或者传感器的精确度不高,那么势必会对所采集到的数据产生一定的噪声污染。这样一来,尽管可以通过后

统计模式识别数据采集与预处理

数据的采集是进行统计模式识别验证的前提条件。一个性能良好的识别系统一定需要首先捕获到好的特征数据。利用这些数据,我们就可以进行后续的预处理、特征提取、特征选择等工作。一般来说,这里的数据采集肯定需要借助相应的硬件设备,诸如,声音传感器、图像传感器等等。如果传感器的灵敏度不高,或者传感器的精确度不高,那么势必会对所采集到的数据产生一定的噪声污染。这样一来,尽管可以通过后续的预处理来减弱甚至消除一部分噪声,但是,终究无法做到完全去除噪声的干扰。所以,数据采集部分应该尽量保证所得到的数据纯正、干净。通常我们可以采集相当数量的数据,并从中选择最优、最好、最具有代表性的数据来作为原始的输入。这样,就从源头上保证了数据取样对最终生物识别验证系统的干扰最小。

另外,需要注意的是,针对不同的生物特征,数据采集的方法和原理是不同的。掌纹识别,是基于人的手掌脉络的不同分叉、线条的粗细等特征为依据来进行最终的识别。笔迹识别则是利用了不同的人在签名时笔划的长度、角度、偏移,握笔的力度、书写时的速度,加速度等特征来进行区分的。

在基于统计方法的模式识别技术领域,所谓的预处理一般是指去除噪声的干扰,加强有效信息的过程。前面已经提到,原始数据的采集不可避免的要引入一些噪声的干扰,对于一个实际的生物识别系统而言,预处理是一个必要的环节。但是,需要注意的是,虽说预处理的作用都是减弱甚至消除噪声的干扰,同时增强有用信息的强度,不过,针对不同的特征,预处理的方法也是千差万别。

统计模式识别特征提取

一般来说,从传感器得到的数据属于原始测量空间的数据,而原始测量空间的数据是无法直接进行判别分类的,或者说,直接利用原始测量空间得到的数据进行判别分类往往达不到期望的效果。通常来说,我们需要将数据从原始的测量空间“变换”到二次空间,而这个二次空间,研究人员一般将它称为特征空间。将数据从原始空间变换到特征空间后,我们就得到了表征某模式的二次特征,一般我们所指的特征就是这里所谓的二次特征。

就特征的属性而言,大体上可分为三类:(1)物理特征,(2)结构特征,(3)数学特征。就特征抽取方法而言,其研究的内容可分为二类:(1)若对象的属性是明确的则研究的核心问题是如何将它们与目标物体的其它部分分离开来并转化为能为计算机所接受的数据,(2)若对象的属性不很明确,则需研究特征抽取的一般原则。

在模式识别的文献中,已提出多种准则函数供特征抽取时参考和利用,基于Fisher判别准则的变换是最为重要的一种特征抽取方法。此外,还有基于最小均方误差的准则(它对应于K一L变换特征抽取),基于瑞利商的准则,基于最小错误概率的准则等。人们已注意到,特征压缩的投影方向取决于选择的准则,而不同的投影方向对于识别的效果将产生很大影响。

统计模式识别分类

属于同一类别的各个模式之间的差异,部分是由环境噪声和传感器的性质所引起的,部分是模式本身所具有的随机性质。前者如纸的质量、墨水、污点对书写字符的影响;后者表现为同一 个人书写同一字符时,虽然形状相似,但不可能完全一样。

因此当用特征向量来表示这些在形状上稍有差异的字符时,同这些特征向量对应的特征空间中的点便不同一,而是分布在特征空间的某个区域中。这个区域就可以用来表示该随机向量实现的集合。假使在特征空间中规定某种距离度量,从直观上看,两点之间的距离越小,它们所对应的模式就越相似。在理想的情况下,不同类的两个模式之间的距离要大于同一类的两个模式之间的距离,同一类的两点间连接线上各点所对应的模式应属于同一类。一个畸变不大的模式所对应的点应紧邻没有畸变时该模式所对应的点。在这些条件下,可以准确地把特征空间划分为同各个类别相对应的区域。在不满足上述条件时,可以对每个特征向量估计其属于某一类的概率,而把有最大概率值的那一类作为该点所属的类别。

分类器有多种设计方法,如贝叶斯分类器、树分类器、线性判别函数、近邻法分类、最小距离分类、聚类分析等。

*文章为作者独立观点,不代表造价通立场,除来源是“造价通”外。
关注微信公众号造价通(zjtcn_Largedata),获取建设行业第一手资讯

热门推荐

相关阅读