塑料是垃圾中最常见的成分之一,也是垃圾中最难处理的成分之一。到2050年将产生多达260亿t的塑料垃圾,其中一半以上将被填埋,最终进入湖泊和海洋等生态圈,造成严重的环境污染[1-2]。而要实现塑料垃圾的高效回收、高值化利用,塑料垃圾的精细化识别分选是其关键前提[3-4]。红外光谱法可以高效地识别塑料,不会损坏检测样品或产生环境污染,而且红外光谱仪使用成本比较低,同时具备线上测试的功能[5-6]。加之机器学习的发展,红外光谱技术在识别塑料方面凸显出巨大的潜力,成为塑料回收领域有力的工具,具有广阔的应用前景[7]。
近年来,国内外学者针对塑料分类研究了许多智能分类算法[8-12],本文在此基础上综述了红外光谱结合机器学习识别塑料的进展,分析了常见的塑料分类模型算法,最后对使用新的算法建立塑料分类模型进行了展望,为红外光谱识别分类垃圾中塑料的技术提供指导,促进废旧塑料的高值化、精细化回收再利用。
1 红外光谱技术
红外(IR)光谱是分子中成键原子振动能级跃迁而产生的吸收光谱,波长范围为0.75~1 000 μm, 在塑料分类中常使用的红外区是近红外光区(0.75~2.5 μm)和中红外光区(2.5~50 μm)。傅里叶变换红外光谱法(FTIR)能够将原始时域信号转换成容易可视化的红外光谱,其映射在每个频率上吸收或透射的红外辐射,从而生成分子指纹[13]。红外光谱扫描速度快、分辨率高,可实现垃圾组分化学结构的原位检测与解析[14]。
2 机器学习方法
机器学习现已广泛地应用于食品和制药行业[15]、环境建模和质量控制等[16],且在塑料垃圾的精细化回收过程中逐渐展露出重要的应用价值[17]。红外光谱结合机器学习自动化塑料分类,常用于塑料分类的机器学习算法主要有:主成分分析(PCA)、线性判别分析(LDA)、偏最小二乘(PLS)、K-近邻(KNN)、支持向量机(SVM)、随机森林(RF)、人工神经网络(ANN)、卷积神经网络(CNN)和K-均值聚类(KC)等[18]。机器学习方法通过对不同塑料的光谱数据进行分类和建模,进而实现对未知塑料的识别,已经成为提高塑料回收率的有用工具。
2.1 主成分分析
PCA是一种用于多维数据集的降维工具,是使用较少数量的主成分来表示一组变量中发生的变化,此降维工具构造称为主成分的新轴,主成分是初始变量的线性组合[19-21]。每个主成分都是以最大化方差的方式构建的,因此可以捕获尽可能多的信息。每个主成分对总体数据方差的贡献可以通过解释的方差比来可视化,通过绘制具有最高解释方差比的主成分,数据可以很容易地在二维图中可视化,属于相同类别的数据通常在图中聚类在一起,并且与其他聚类充分不同。
苏东斌等[22]对40种塑料样本进行检验,将预处理后的光谱数据进行PCA,前4个主成分的累计方差贡献率为89.82%,然后利用Fisher判别函数建立分类识别模型,成功将样本分为7类。Yang等[23]采用近红外光谱仪对标准塑料和商品塑料的漫反射光谱进行了测量,应用多元散射校正(MSC)、标准正态变量变换(SNV)、一阶导数(FD)和平滑(SG)作为预处理方法,利用主成分分析分别建立了K-近邻、支持向量机和反向传播神经网络(BPNN)分类模型,结果表明,PCA处理后的前三个主成分空间能很好地分类出不同的塑料,三个分类模型都具有良好的分类效果,与化学计量学相结合的近红外光谱仪具有优良的性能,在商品塑料鉴定领域具有广阔的应用前景。
2.2 线性判别分析
LDA是一种监督分类方法,是从已建立的模型中确定用于样本分类的最佳拟合参数,然后该模型用于对未知样本进行分类[24]。LDA首先通过最大化每个类的平均值之间的距离,同时最小化每个类内的数据集分散构造新的轴,然后将数据映射到新的较低维度轴。LDA提供了一种将n维特征向量线性变换到m维空间(m<n)的方法,使得属于同一类的样本距离很近,而来自不同类的样本彼此距离很远。
吴晓昱[25]收集了多种废家电的塑料并采集了近红外光谱,在优化了前处理方法,截取了合适光谱区间之后,运用线性判别分类算法建立分类模型。LDA在各项评估中表现稳定,预测准确率高,但是受试者工作特征曲线(ROC)分析显示LDA可能不适合PS塑料的二分类问题。进一步运用遗传算法(GA)和模拟退火(SA)对上述分类方法进行计算量上的优化,结果显示两种智能搜索算法优化后的分类模型准确率不会明显降低,精确率和召回率都在98%以上,准确度都在99%以上,表明LDA方法适用于来源单一的废塑料。
2.3 偏最小二乘法
PLS回归是一种使用潜在变量来研究两个矩阵之间关系的统计方法,潜在变量通过找到X空间中与Y空间中具有最大方差的向量相对应的向量方式构建。利用PLS-DA来开发分类模型,通过选择分类已知的训练集来建立分类规则,然后使用独立的数据集验证分类规则。判别方法在样本分类时遵循贝叶斯规则,即将所述样本分配给对应于所述最高概率的类。
Wu等[26]收集了4种常用回收废弃电子设备塑料的近红外光谱,使用线性去噪(LD)、一阶导数、S-G 滤波和标准正态变量预处理方法进行基线校正、降噪和散射校正,建立了光谱角映射(SAM)、偏最小二乘判别分析(PLS-DA)和线性判别分析结合主成分分析(PCA-LDA)三种分类方法,并在原始塑料上训练的分类模型与在废弃塑料上训练的分类模型进行了比较,以评估这些方法在有限的训练数据下的性能。无论是原始塑料的光谱还是废弃塑料的光谱,SAM和PCA-LDA都显示出利用原始塑料光谱训练的模型对废弃塑料进行分类的潜力,两种方法的准确率分别为99.3%和99.7%,每一类的准确率和召回率均为97%~100%,PCA-LDA的表现略优于SAM,但对数据预处理方法的敏感性低于SAM。Silva等[27]研究了衰减全反射模式下傅里叶变换红外光谱(ATR-FTIR)结合PCA、区间线性偏最小二乘回归(iPLS-R)与竞争自适应加权抽样(CARS/PLS-R)作为化学计量学方法,用于分类和确定塑料垃圾中高密度聚乙烯(HDPE)和低密度聚乙烯(LDPE)的原始和回收混合物的比例,发现3D PCA图在使用三个主成分(PC)对不同聚乙烯及其聚合物共混物进行分类时无效,但使用 PC 1和 PC 3 的2D PCA图在这方面表现出了很好的性能。iPLS-R比CARS/PLS-R具有更好的预测能力,可以确定HDPE/LDPE回收共混物中的LDPE含量,但是由于不同污染物的存在,降低了iPLS-R模型分选LDPE和HDPE的能力。
2.4 K-近邻
KNN是一种分类算法,基于新观测的k个最近邻的样本进行分类,其中k是一个可以调谐的参数,k个最近邻中的多数类将决定新观测的类[28]。KNN也是一种非参数、基于实例的惰性学习方法,工作在一个距离函数上,该函数通过测量不同特征之间的距离来对它们进行分类。具有数学简单、不需要统计假设、与类的空间分布无关等优点。当训练数据集较大时,KNN需要大量的存储空间和时间来重复计算距离,KNN也可以与PCA相结合使用[29]。
田静等[30]采用主成分分析法结合KNN建立了PP和PE定性校正模型,运用矢量归一化、标准正态变量变换、中心化、滑动均值滤波(MAF)、多项式平滑滤波(SGF)以及一阶微分这6种光谱预处理方法与KNN相配合,对塑料样品近红外光谱数据予以处理。经研究发现,在1 050~1 550 nm这一区间内,当未实施光谱预处理时,前3个主成分的KNN定性校正模型所呈现出的判别准确度处于最佳状态。此检测方法具备结果精准、耗时较少以及无损等特性,能够对食品包装材料聚乙烯、聚丙烯展开快速鉴别工作。Borja等[31]使用LDA、二次判别分析(QDA)、KNN与遗传算法(GA)结合,KNN方法的预测效果最好,对ATR测量的现场样本的预测正确率为80%~85%,还论证了只有在非常强大的数据库和变量选择之后,才有可能运行QDA。
2.5 支持向量机
SVM是一种构建决策边界以最大化不同类别之间距离的分类算法,在训练样本数有限的情况下,对高维数据具有良好的分类性能,适用于分类和回归问题,可以很好地防止欠拟合和过拟合。如果类是由非线性边界分离的,支持向量机使用核函数来实现类的线性分离。Zhu等[32]建立了一套近红外光谱结合支持向量机的塑料固体废物识别系统,提出了一种PCA结合SVM的识别方法,其识别准确率可达97.5%,并且还可以大致辨别样品的形状。
薛莲莲[33]在研究中运用移动平均平滑与卷积平滑的方式处理光谱,借助标准正态变换(SNV)以及多元散射校正法(MSC)开展光程校正工作,采用导数法实施光谱基线校正。其利用主成分分析法、连续投影算法(SFA)、竞争性自适应重加权算法(CARS)和无信息变量消除法(UVE)来提取光谱的特征波长。通过构建支持向量机识别分类模型,并且运用网格搜索法与粒子群算法(PSO)对SVM算法的惩罚因子和核函数参数予以寻优。最终得出的结果显示,基于SVM构建的 7 种塑料分类识别最优模型是S-G卷积平滑+MSC+PCA+PSO+SVM,该模型训练集的准确率达99.21%,预测集准确率为95.15%。李家帅等[34]针对光谱数据采集环节中出现的噪声、基线以及光程等问题展开了深入探究。对3点卷积平滑、导数、标准正态变量变换、多元散射校正等预处理组合方法进行了优化探索。在特征波长提取方面,运用了竞争性自适应重加权算法(CARS),并与支持向量机算法相结合构建模型。研究结果显示,在全部的预处理方法组合里,S-G+FD+SNV 所取得的成果最为理想,其与SVM模型相结合后准确率能够达到96.67%,且训练集与验证集的准确率均为 100%。
2.6 随机森林
随机森林是使用许多决策树构建的集成机器学习技术,算法的输出是所有决策树的预测输出的平均值[35]。Liu等[36]在开发基于机器学习的分类器和两个大规模混合塑料数据集时,当以傅里叶变换红外光谱的原始光谱数据为输入,结果表明RF在光谱数据较少的情况下具有鲁棒性,RF可以用较少的光谱数据进行塑料识别,准确率>90%。
马源[37]经研究指出,在针对Thermo谱图库塑料的识别方面,以集成学习为基础的RF展现出相较于 ANN更为显著的准确率优势,其准确率高达92.9%。这一优势的根源在于RF自身所具备的更为强大的泛化能力。这意味着RF在进行塑料识别时,即便不依赖对红外谱光图的预处理流程,同样能够达成较为出色的分类成效。然而,RF也同ANN一样,在分类过程中存在不足,无法充分挖掘并利用样本所蕴含的有效信息,例如会把PP样本错误地归类到PS类别当中。这一现象充分表明,RF和ANN这两种传统的机器学习模型,不仅在分类标准上存在相似之处,而且均缺乏依靠自身能力有效过滤样本中噪声信息的本领,从而在一定程度上影响了分类的精准度。
2.7 K均值聚类和SIMCA
K均值聚类是一种无监督机器学习算法,其基于到每个聚类的质心的距离将每个观察分组到k个聚类中的一个,其中k是要调整的参数。在学习过程中,首先随机定义聚类质心,根据欧氏距离将每个观测值分配到最近的质心,然后为每个聚类中的所有点定义新的质心,并且迭代地重复该过程达到收敛。SIMCA是一种有监督的模式识别方法,根据训练集提供的值来识别不同类别的样本,然后将测试集与类模型进行比较,并根据它们与训练集的接近程度将其分配到类[38]。
付钧泽等[39]运用傅里叶变换红外光谱法,针对不同品牌的塑料饮料瓶实施预处理操作后,把样品划分成了两个类别。在数量占比最大的那一类样品中,先是借助主成分分析的手段对样品光谱数据予以降维处理,进而提取出主成分,随后结合K均值聚类的方法对样品展开精确的分类。他们以聚类所得到的结果作为因变量,搭建起神经网络算法来对相关数据进行训练,以此来预测样品的分类状况。最终的结果显示,无论是训练集还是测试集,其正确率都达到了百分之百的水平,这充分体现了该方法在塑料饮料瓶样品分类预测方面的高度准确性和有效性,为相关领域的研究和实践提供了有力的技术支撑和参考依据。Xia等[24]基于交叉验证,确定了每一类的最优主成分个数,使用S-G平滑、SNV进行建模,SIMCA的结果略好于PLS-DA,准确率为69.98%。
2.8 基于神经网络的深度学习
深度学习(DL)代表了机器学习领域中一个相对较新的分支方向,DL依靠训练数据来学习并提高其准确率,可以省略光谱数据的预处理,非常具有前景的学习能力和较低的泛化误差。深度学习利用人工神经网络作为算法的架构来表征数据并从数据中学习[40]。人工神经网络和卷积神经网络已经在该领域得到了关注,以及生成深度学习网络、深度迁移学习和多模态深度学习,它们在该领域的应用前景广阔[41]。
2.8.1 人工神经网络
人工神经网络属于被称为用于预测建模的机器学习的分支,各种人工神经网络结构已被广泛用于塑料分类。输入层中的输入矩阵被映射到使用隐藏层中的神经元的分类输出,每个神经元都包含一个函数,该函数将权重应用于输入的不同部分,所有神经元一起帮助学习复杂的函数。在训练过程中,通过迭代反向传播过程来调整权重,以通过梯度下降来减少损失。Bae等[42]使用包含神经网络和模糊系统、进化算法的分类器对黑色塑料垃圾进行了定性和定量分析,当通过使用ATR FTIR光谱仪来识别黑色塑料时,将特征峰与已经获得的参考峰进行比较,分类器可以通过与已经选择的参考峰匹配来识别未知的黑色塑料,还考虑特征峰以避免重叠,识别准确率为99.4%。
2.8.2 卷积神经网络
卷积神经网络是近年来开发的神经网络架构的一种变体,已与光谱信号联用,是人工神经网络的数学模型[43]。CNN由三种类型的层组成:从输入数据中提取特征的卷积层、有助于降低维度的池化层以及本质上是ANN的全连接层。Wu等[41]总结了CNN在智能废物识别和回收中使用的各种开源数据集和高级CNN模型,并深入分析了分类、对象检测和分割三个主要任务:CNN在智能废物识别和回收中应用的三个关键领域:可回收材料识别、垃圾污染检测、固体废物分类,指出在未来综合应用神经网络、传感器融合、数据融合的智能分类系统将是一个有前途的方向。表1是红外光谱结合其他的机器学习方法识别塑料。
表1 红外光谱结合其他的机器学习方法
Table 1 Infrared spectroscopy combined with other machine learning methods
|
机器学习方法 |
塑料类型 |
准确率/% |
文献来源 |
|
最小二乘支持向量机(LS-SVM) |
ABS、PC-ABS、HDPE、HIPS等 |
96.75 |
[44] |
|
Gramian角场-图像融合卷积神经网络-CNN(GAF-IFCNN-CNN)、支持向量机分类器(SVC)、SVC-蒙特卡罗交叉验证(SVC-MCCV) |
PE、PEVA、PP、PS等 |
99.2 |
[45] |
|
偏最小二乘判别分析(PLS-DA) |
PC、PE、PP、PS、PVC |
97.5 |
[46] |
|
额外树分类器(Extra Trees Classifier)、Logistic回归(Logistic Regression) |
PP、PS、PE、PVC、PET |
98.53 |
[47] |
|
精细树(fine tree)、袋装树(bagged tree)和集成学习 |
PE、PET、PP、PS |
99.0 |
[48] |
3 展望
红外光谱技术具有准确、快捷、无损等优点,在垃圾塑料分选回收方面有着极为广阔的应用前景。当下,我国针对红外光谱技术的研究与应用尚处在起步时期,相较于发达国家存在较大差距,而对该技术的开发与应用会成为我国后续发展进程中的关键要点。对于不同的数据集,通常使用试错方法来确定预处理和建模方法的最佳组合,借助机器学习来鉴定红外光谱,大幅提升了红外定性的水平。
未来红外光谱与机器学习识别塑料可以从以下方面考虑:①塑料覆盖范围,②混合光谱方法,③开源数据库,④其它深度学习方法。现有的多变量方法依赖于预处理和特征选择,难以直接从光谱数据中学习模式。在未来开发更为快捷且精确的其他垃圾深度分选技术时,应着重考量源头分类结果的均一性以及垃圾受污染状况。以此为前提,进一步拓展模型学习的样本数量,同步优化分类算法,从而持续提高模型在分类过程中的准确率、稳定性,并增强其针对实际垃圾样本的适配能力,以满足垃圾深度分选的技术需求。另外样品的大小,形状和形态对红外信号有明显的影响,未来在开发用于预测未知物的光谱库时必须考虑到这一点,同时应该通过多变量与机器学习方法相结合扩大红外光谱库的开发。