基于支持向量机的木材树种识别模型

来源:优秀文章 发布时间:2022-12-09 点击:

骆立,徐兆军,王晓羽,周康,那斌

(南京林业大学材料科学与工程学院,南京 210037)

木材种类繁多,而木材加工与贸易的前提是需要对木材树种进行精准识别。随着木材消费的增长和木材进出口企业竞争的日益激烈,高效精准的木材树种识别及质量评估系统具有良好的应用前景。我国约有2 500多种乔木,而目前已完成树种识别的木材仍不足千种。传统的木材树种识别主要依据木材组织结构特征,但这种方式工作效率低、存在人为误识,且不能实现无损检测,难以适应现代林业的高速发展,阻碍了林业信息化由数字林业迈向智慧林业的进程。近年来,随着计算机辅助识别技术的发展,木材树种及性能的无损检测技术逐渐受到关注,如超声波、核磁共振、应力波和近红外光谱等。其中,近红外光谱技术因操作便捷、模型泛化能力强等优点已广泛应用于农业、石油化工、生命科学等领域,然而其在林业科学中的应用仍处于探索阶段。作为一种快速、绿色的新兴无损检测技术,近红外光谱能反映出不同树种对于不同波长入射光反射率的差异,可对木材树种进行精准分类。有研究证实了利用近红外光谱技术识别木材树种的可行性,但存在波段重叠严重、吸收强度低、易受外界环境影响等问题[1]。

近红外光是介于可见光与中红外光之间的电磁波,波长780~2 500 nm,近红外光谱主要包含了主要化学键(C—H,O—H,N—H)吸收信息和由微观结构不均匀引起的散射信息。与传统木材识别技术相比,近红外光谱技术具有高效、快速、无损和实时等优势,但是必须依赖于校准方法和模型开发[2]。在之前的研究中多用经典的线性模型,如偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)[3-5]、主成分分析(principal component analysis,PCA)[6]和线性判别分析(linear discriminant analysis,LDA)[7]。尽管传统线性建模方法得到了较为理想的预测结果,但鉴于木材材性的复杂度以及工厂实际环境的局限性,亟须寻找更为高效、适用度更广的近红外光谱建模方法,以提高木材树种的识别精度和速度。近几年来,有学者提出将近红外光谱技术与机器学习方法相结合进行木材树种识别的手段,这将为木材树种快速无损识别技术的发展提供广阔的前景。支持向量机(support vector machine,SVM)是一种优异的机器学习方法,能够实现全局最优的鲁棒分类,其将待解决的问题转化成一个二次规划的凸优化问题,在解决小样本和高维向量分类问题上表现出很多优势[8]。Li等[9]利用近红外光谱技术识别木材树种并预测密度,利用小波变换进行光谱预处理,建立SVM模型,采用粒子群算法(particle swarm optimization,PSO)优化参数,在测试集上准确率为100%。Zhou等[10]开发了一种基于近红外光谱快速鉴别西部铁杉和冷杉的方法,对光谱进行平滑处理和一阶求导处理,建立基于最小二乘支持向量机(least squares-support vector machine,LS-SVM)的回归模型与分类模型,模型最佳效果的准确率达到99.8%。作为模型的输入,数据的处理与模型的建立同样重要,而之前的研究忽略了数据处理方法对模型运行速率的影响。SVM模型实现的关键是核函数的选取,不同核函数的选取具有不同的分类效果,核函数的参数选择也会影响到分类器的准确率,但目前的研究缺乏核函数以及核函数参数对木材树种识别影响的相关探讨。

为了建立高效精准的木材树种识别及质量评估系统,笔者开发了一种线性降维技术结合非线性分类算法的木材树种识别模型,即先采用线性算法PCA和LDA对木材的光谱数据进行降维处理以滤除噪声和提高模型运行速度,再分别结合非线性的SVM建立PCA-SVM、LDA-SVM模型。此外,还对比了无监督学习的PCA和有监督学习的LDA降维去噪效果,探讨了不同核函数以及核函数参数对于模型分类效果的影响,以期为木材树种快速鉴别提供理论依据与技术支撑,规范木材交易市场。

1.1 样本来源与仪器设备

供试木材样品均由圣象公司提供,分别为非洲紫檀、变色紫檀、橡胶木、白栎和水曲柳5个树种,规格均为20 cm×10 cm×2 cm(长×宽×高),每个树种均备有200个木块,共计1 000个试验样本。样本产地如表1所示。为避免锯痕对试验结果的影响,采用100目(粒径150 μm)砂纸对木块进行打磨,并存放在温度为(25±2)℃、相对湿度为(50±2)%的受控环境中。采用光谱仪(台湾五铃光学公司,型号:NIRez)进行光谱采集,光谱波长范围900~1 650 nm,光谱分辨率10 nm,每条光谱包含112个数据点。

表1 样本树种及来源Table 1 The tree species and sources of samples

1.2 光谱采集

近红外光谱的采集系统主要由光谱仪、计算机、光源盒、光纤、暗箱等构建而成。为避免室温、光线等环境变化对实验造成影响,在暗箱内进行采集作业,环境温度控制在20 ℃,平均相对湿度在50%。采集前,使用标准聚四氟乙烯白板进行光谱白板校正,从而对环境噪声波段进行滤波处理。将待测样本放置在支架平台上,光纤探头距待测样本表面约5 mm。利用配套软件SpectraSmart(台湾五铃光学公司,版本号:2018)采集数据,采样的参数设置为:光谱范围900~1 650 nm,积分时间1 ms,扫描平均次数900次,平滑度为5,同时启用电子暗噪声校正和杂散光校正。

1.3 光谱数据的降维处理

由于直接采集的光谱数据包含大量冗余信息、特征峰高度混叠、信噪比较低,在解决木材树种识别的多分类问题时,需要对光谱数据进行特征提取,本研究采用PCA与LDA两种降维方法对光谱数据进行处理。PCA是一种统计分析方法,将原始数据相关的多数指标通过正交变换为少数不相关指标,这些指标称为主成分。PCA的主成分各自独立且不相关,能够降低维数和去除光谱中的重叠信号,是一种目前最常用的光谱特征信息提取方法。利用PCA对5种木材光谱数据进行降维,提取出特征数据,从而提高数据的聚类效果。而LDA通过找到一个投影面,使得类间距离最大化、类内距离最小化,从而达到最好的分类效果,实现特征压缩和分类信息抽取的作用[11]。与PCA相比,LDA属于监督学习的降维方法。在训练过程中,LDA会学习各类之间最有判断力的轴,并使用这些轴来定义要在其上投影的超平面,是在建立SVM分类器前常用的一种降维技术,优势是能使各类之间保持尽可能远的距离,局限性是最多只能降到类别数减1的维度。

1.4 模型建立

选取SVM分类器作为树种分类的模型,分别结合PCA和LDA建立PCA-SVM模型与LDA-SVM模型,模型的输入为经过降维处理的光谱数据,输出为木材的树种标签。木材的近红外光谱数据属于非线性数据,对于非线性的情况,SVM利用非线性映射把输入样本由低维空间映射到高维特征空间,使得在低维空间中线性不可分的问题转化为在高维空间中线性可分。SVM常用的核函数有线性内核(linear)、多项式内核(polynomial)、双曲正切内核(sigmoid)和高斯径向内核(radial basis function,RBF)4种。SVM是建立在核函数的基础之上的,核函数及其参数的选择会影响到SVM的准确率和稳定性。目前常用的参数寻优算法有粒子群优化算法、遗传算法和网格搜索算法等。本研究采取了网格搜索法结合5折交叉验证的方法。此外,SVM属于严格的二元分类器,当利用SVM进行多元分类时,可以通过一对多(one-versus-all,OvR)和一对一(one-versus-one,OvO)两种策略实现多类分类的目的。多类分类问题可描述为:给定训练集样本集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X×Y)l,其中xi∈X=Rn,yi∈Y={1,2,…,K},i=1,2,…,l,要在上述训练样本寻求一个决策函数f(x):X=Rn→Y,使对未知样本x进行分类时的错误率尽可能小。

1.5 模型评价

选用准确率、混淆矩阵和ROC曲线(受试者工作特征曲线)来评价模型的分类能力[12]。准确率是所有正确识别样本数与总样本数的百分比,准确率越接近1,表明正确识别的样本越多。但当进行多元分类时,通常不能把准确率作为评估分类器的首要性能指标,评估分类器性能更好的方法是混淆矩阵,其总体思路是统计A类别实例被识别成B类别的次数。混淆矩阵的每一列代表预测类别,每一行代表的是真实类别,可以明确地了解到每类树种被误识的类别与次数。ROC曲线绘制的是真正类率和假正类率的关系,将AUC面积(ROC曲线下面积)作为评价模型表现的度量标准[13]。一般而言,曲线越朝左上角凸出,模型的表现越好,简单直观。每个树种能绘制出一条ROC曲线,画出5条曲线后取其平均值得到最终的ROC曲线,其中求平均值又分为宏平均和微平均。

2.1 光谱数据预处理

由于原始光谱讯号存在着一些噪讯,因此采用SpectraSmart提供的平滑处理功能来消除噪讯,让光谱曲线更加平滑,开启DWT 降噪滤波器、 Savitzky-Golay滤波器[14],并且设定11点平滑度及参考与量测曲线平滑模式。同一树种的木材光谱曲线应该具有相同的趋势与走向,采用PCA将原始数据降到3维,目的是可视化数据,观察数据的分布情况,如图1a。观察图1a可知,异常值的存在不利于木材树种的分类,通过计算样本间的欧氏距离对异常值进行检测,共检测出52个样本点。由于异常值小于样本总数的10%,直接对异常值进行剔除,剩余948个实验样本,剔除后的前3个主成分散点图如图1b所示。由图1b可见,5种木材在主成分的3维空间里呈现出较高的聚合度,橡胶木、蒙古栎、水曲柳的边界线较为明显,而非洲紫檀和变色紫檀的边界线模糊。

图1 5种木材的前3个主成分散点图Fig. 1 Scatter plot of first three principal components for samples of five wood species

SVM只能处理数值型数据,因此在数据预处理时需要将文字型数据转换为数值型,即对木材的树种标签进行编码,将分类转换为分类数值,非洲紫檀、变色紫檀、橡胶木、蒙古栎、水曲柳分别编码为类别0、类别1、类别2、类别3、类别4。

2.2 样本集划分

Kennard-Stone(K/S)算法通过计算样本间的欧氏距离来划分样本,将光谱差距大的样本选入训练集,其余的样本归入测试集。采用K/S算法将样本集划分为训练集和测试集,从每类树种样本中抽取70%作为训练集,30%作为测试集,则训练集中共有663个样本,测试集共有285个样本。为验证抽取出来的测试集是否具有代表性,采用PCA分别对训练集和测试集进行降维处理。测试集与训练集的第一主成分和第二主成分分布图见图2。由图2可见,测试集样本均匀分布在训练集的分布空间上,说明此测试集具有代表性。

图2 样本的第一主成分和第二主成分分布图Fig. 2 Distribution of the first and the second principal component of the samples

2.3 PCA-SVM模型分类

PCA降维模型中最重要的参数是n_components,即降维后保留的特征维度。训练集和测试集的主成分累计贡献率见表2。由表2可见,训练集及测试集的前3个主成分累计贡献率已达到了99.94%,保留了原始数据足够的信息量。通过学习曲线易于找到最佳的n_components,当n_components为12时,PCA-SVM模型的分类性能最好,因此采用前12个主成分替代原始光谱数据作为模型的输入。

表2 训练集和测试集的主成分累计贡献率Table 2 Cumulative contribution rate of principal components of training set and test set

为选取最佳的核函数,在识别难度较大的非洲紫檀与变色紫檀训练集上探究4种核函数的识别效果,基于不同核函数建立SVM模型,各项参数均设定为默认值,识别结果如图3所示。由图3可知,在同一样本集下基于不同的核函数建立的识别模型对木材的识别效果不尽相同,基于高斯径向内核函数的模型准确率可达到83%,而基于多项式内核函数的模型准确率却只有67%;
因此,根据核函数在此训练集上的表现,选取高斯径向内核作为SVM模型的核函数。

图3 4种核函数的识别效果Fig. 3 Identification performance of four kernel functions

基于RBF的SVM模型存在两个需要自定义的超参数,即惩罚因子C和RBF核函数宽度gamma[15]。为提高SVM的泛化性能和识别效果,采用网格搜索法结合5折交叉验证来优化参数,得到C与gamma的最佳组合。由于本研究的训练集属于较小的数据集,且OvO策略每次训练只使用两类样本,训练速度较快,多类分类方法采用OvO策略。

两种模型树种的混淆矩阵见图4。当C为32.66、gamma为0.026时,采用OvO策略,PCA-SVM模型的分类性能最佳,准确率达到96.14%,有9个样本识别错误,模型速率达7.92 s。分析PCA-SVM模型的混淆矩阵(图4a所示),仅有非洲紫檀的准确率达到了100%,而蒙古栎的准确率只有92%,被错误识别为非洲紫檀和橡胶木。蒙古栎的AUC面积为0.99,其余树种均为1,可见PCA-SVM分类器对蒙古栎的识别能力最差。

图4 两种模型树种的混淆矩阵Fig. 4 The wood species prediction results of the two models

2.4 LDA-SVM模型分类结果分析

两种降维方法的处理结果见图5。为对比分析PCA和LDA降维的处理效果,在训练集上分别采用PCA和LDA进行降维,得到二维投影图。由图5可见,LDA降维后的聚类效果优于PCA,各类别树种分界线清晰。这是因为近红外光谱信息与木材树种标签相关联,LDA是属于监督学习的降维技术,在向低维度投影时使不同类别数据的类别中心间距尽可能远,而PCA是不考虑样本类别输出的无监督降维技术[16]。

图5 不同降维方法的处理结果Fig. 5 Processing results of different dimensionality reduction methods

由于LDA最多只能降到4维度,取n_components=4,SVM模型同样选取RBF核函数,采用OvO策略,经网格搜索法,结合5折交叉验证优化参数,得到C=10.21,gamma=0.278,准确率高达97.54%;
有7个样本未被正确识别,模型运行速率达6.53 s。LDA-SVM模型的混淆矩阵(图4b所示)直观地反映了各类树种的识别准确率,其中非洲紫檀、橡胶木、水曲柳3个树种的所有样本均能正确识别,变色紫檀和蒙古栎的准确率分别为95%和92%。

5个树种的AUC面积均为1,表明LDA-SVM模型对各类树种的识别能力较强。两个模型的区别在AUC面积中体现得不明显,总体而言LDA-SVM模型略优于PCA-SVM模型。

1)将机器学习与林业信息处理紧密结合,开发一种基于支持向量机的木材树种识别模型,结果表明PCA-SVM和LDA-SVM两种模型均可实现对木材树种的识别。其中,LDA-SVM模型的准确性优于PCA-SVM模型,总体准确率97.54%,模型运行速率6.53 s。

2)采用PCA和LDA两种线性算法对原始光谱数据进行降维去噪处理,对比了其对木材近红外光谱的去噪效果和模型运行速度的影响,结果表明,基于LDA的模型优于基于PCA的模型,模型识别准确率提高了1.4%,运行速率提升了17.6%。

3)探讨了SVM的核函数对木材树种识别的影响,结果发现基于高斯径向内核函数的模型识别效果最佳,线性内核函数次之。

猜你喜欢 紫檀降维光谱 基于三维Saab变换的高光谱图像压缩方法北京航空航天大学学报(2022年8期)2022-08-31煤炭矿区耕地土壤有机质无人机高光谱遥感估测农业工程学报(2022年8期)2022-08-08基于3D-CNN的高光谱遥感图像分类算法黑龙江大学自然科学学报(2022年1期)2022-03-29基于数据降维与聚类的车联网数据分析应用汽车实用技术(2022年4期)2022-03-07水边的紫檀靠椅满族文学(2022年1期)2022-01-21中国紫檀博物馆中国国情国力(2020年1期)2020-03-06降维打击海峡姐妹(2019年12期)2020-01-14几种降维算法的研究及应用科技视界(2016年16期)2016-06-29不变的是流光还有那一抹紫檀之美中国新时代(2016年6期)2016-06-16紫檀树作文大王·中高年级(2008年12期)2008-12-19推荐访问:向量 树种 木材
上一篇:■科学家们试图通过微生物群的突破“逆转”食物过敏
下一篇:推动地方法人金融机构绿色金融发展浅析——以四平市为例

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有