摘要
岩性智能识别技术及其应用在地质调查、矿产勘查、工程地质等众多领域中发挥着越来越重要的作用。为解决野外岩性识别主要依赖地质人员经验且智能化程度较低等问题,本文采用一种 PP-LCNet轻量级深度卷积神经网络模型对岩石岩性进行智能识别。首先,搜集建立“二长花岗岩”、“花岗闪长岩”、“白云石大理岩”、“方解石大理岩”、“长石石英岩”、“煤”、“石灰岩”、“石英砂岩”、“长石砂岩”等不同种类岩石图像数据集,并对图像进行分割与预处理;选择预先训练过的 PP-LCNet 轻量级网络模型,并结合 SE (Squeeze-and-Excitation)通道注意力机制模块,对 1890张岩石训练集图像进行迁移训练,并利用验证集不断调整模型参数,得到轻量且高精度的图像识别模型;利用测试数据集进行模型测试,评估模型性能,显著提高了模型的泛化能力,很好解决了岩性识别模型算法精度与速度难以平衡的难点。相较于MobileNetV2、MobileNetV3、ResNet50、Xception65以及 ShuffleNetV2等网络模型,PP-LCNet模型整体评价指标都高于80%。该模型体积小,仅占用12.9 MB的空间,单张岩石图片识别时间仅约为2.85 s,显示出更高的准确率和快速的识别速度。因此,该模型在岩性识别方面具有较大优势和应用前景,能够有效提高岩性智能识别的精度和效率。
Abstract
Lithology intelligent identification technology and its application play an increasingly important role in many fields such as geological survey, mineral exploration and engineering geology. In order to solve the problem that field lithology identification mainly depends on the working experience of geological personnel and the intelligence degree is low, a lightweight deep convolutional neural network model called PP-LCNet was adopted for intelligent recognition of rock lithology. Firstly, collect and establish six different types of rock image datasets, namely monzonitic granite, granodiorite, dolomite marble, calcite marble, arkosite, coal, limestone, quartz sandstone and arkose, and segment and preprocess the images; then, a pre-trained PP-LCNet lightweight network model was selected, and combined with the SE (Squeeze-and-Excitation) channel attention mechanism module to transfer and train 1890 rock training set images. The model parameters were continuously adjusted using the validation set to obtain a lightweight and high-precision image recognition model; Finally, the model was tested using a test dataset to evaluate its performance, significantly improving its generalization ability. This effectively solved the difficulty of balancing the accuracy and speed of the lithology recognition model algorithm. Compared to other network models such as MobileNetV2, MobileNetV3, ResNet50, Xception65, and ShuffleNetV2, the overall evaluation index of the PP-LCNet network model was higher than 80%. The model has a small size, occupying only 12.9 MB of space, and the recognition time for a single rock image is only about 2.85 s, demonstrating higher accuracy and fast recognition speed. Therefore, this model has significant advantages and application prospects in lithology recognition, and can effectively improve the accuracy and efficiency of intelligent lithology recognition.
0 引言
岩性识别一直是地质和地球科学领域一项重要的基础工作(张驰等,2023;吕毓东等,2024;宋梓豪等,2024;闫彦芳等,2024)。通过岩石岩性的识别,不仅可以探索地球的物质组成、内部结构、相互作用及演化历史,还可以指导地质找矿和油气勘探。同时,也可以对岩土与地下工程设计优化、安全评估和风险评价提供科学依据。
常规的岩性识别方法主要有肉眼观察、薄片识别和实验测试分析法等。肉眼观察是直接通过人眼观察岩石的颜色、纹理、结构等特征,进行初步的岩性判断。薄片鉴定主要通过将岩石制成薄片,使用光学显微镜观察岩石的矿物组成、晶体结构等微观特征,以确定岩性(张利军等,2024)。实验测试分析主要采用偏光显微镜、X 射线衍射仪(X-Ray Diffractometer,XRD)、X 射线荧光仪(X-ray Fluorescence,XRF)、原子吸收光谱仪(Atomic Absorption Spectroscopy,AAS)、电子微探针分析仪(Electron Microprobe Analysis,EMPA)、扫描电子显微镜 (Scanning Electron Microscope,SEM)、能量色散 X射线光谱(Energy Dispersive X-Ray Spectroscopy, EDX)等技术测定不同岩石的矿物组成和元素含量,从而识别岩性(Martin and Carr,2019;殷文等, 2023)。其中,最重要且应用最广泛的方法是对偏光显微镜获得的岩石薄片图像进行分析。由于矿物独特的光学性质,薄片图像可以提供丰富的岩相信息。常规的岩性识别方法虽然已在地质研究中得到了广泛应用,但其识别结果受研究人员专业知识水平限制较大,对实验仪器设备和工作环境的要求较高。因此,如何弥补传统岩性分类方法的不足,以便地质工作者在野外能够迅速准确地识别不同岩石岩性具有重要的价值。
近些年以来,深度学习与迁移学习理论方法逐渐应用于岩石图像的智能识别分类中(刘晓梅等, 2024)。Patel and Chatterjee(2016)基于概率神经网络以颜色直方图特征为基础,实现了对石灰岩类型的分类识别;冯雅兴等(2019)提取并融合岩石新鲜面的全局和局部图像信息,采用 AlexNet网络模型,构建一个统一的描述符,从而实现了常见岩石类型的分类;Koeshidayatullah et al.(2020)以 DCNN 目标检测和图像识别方法为基础,对碳酸岩岩相图像进行了识别,结果表明该方法比常规的岩相分析具有更高的效率和准确性;Fan et al.(2020)基于 ShuffleNet和 MobileNet轻量级卷积神经网络,对 28种岩石图像进行了识别和分类,满足了野外地质调查人员快速识别岩石岩性的需要;董文豪和张怀(2023) 基于在ImageNet图像数据集上训练好的VGG-16模型,建立符合18种岩屑图片数据集特征的迁移学习模型,并应用到野外岩性识别中;周渊凯和刘祜 (2024)采用不同结构的深度神经网络模型,对纳岭沟地区铀矿测井解释的岩性分类问题进行了研究,缓解了类别不均衡对岩性分类结果的影响;管耀等 (2024)根据常规测井和元素录井数据,采用不同的机器学习算法对岩性进行识别,并进行对比分析,得到了蚀变火成岩岩性的综合判别方法。总的来说,大量学者已在岩石图像智能识别方面取得了一些有价值的成果,但仍存在识别精度低,模型运行速度慢等问题,仍需开展进一步研究。
轻量级神经网络(lightweight neural network)是一种针对嵌入式设备和移动端应用的神经网络模型,其主要特点是模型规模小、运算速度快、能耗低,可以在资源受限的环境下实现高效的边缘计算和人工智能应用。常见的设计策略包括深度可分离卷积、残差模块、通道混洗、添加注意力机制等方法,这些技术可以大幅度降低神经网络的参数量和计算复杂度,同时保持较高的精度。组卷积的概念最先由 Krizhevsky et al.(2012)提出,并成功将其应用于神经网络的训练中。Howard et al.(2019)通过将分组数设置为卷积核通道数的相同值,提出了深度可分离式卷积结构。与此类似,Zhang et al. (2018)采用逐点组卷积来提取通道特征,降低了计算复杂度,并引入通道混洗方法,增强了不同组别之间的信息流动,提升了模型的性能。
注意力机制(张宸嘉等,2021)是一种神经网络中的机制,用于强化模型对输入数据中某些重要信息的关注,从而提高模型性能。该机制的核心思想是在网络中引入权重,使网络能够更加聚焦于对任务重要的信息。在注意力机制中,模型通过学习到的权重来分配不同部分输入的注意力。这样,网络可以在处理数据时更加关注那些对解决问题至关重要的特征。其中一种常见的注意力机制是压缩激励(Squeeze-and-Excitation,SE)模块,由 Hu et al. (2018)提出,该模块利用两个全连接层来提取通道注意力,使得网络能够动态地调整对每个通道的关注程度。通过应用注意力机制,无论是在轻量级神经网络或是高性能神经网络中,都能显著改善网络的性能。
综上所述,国内外学者在岩石图像智能识别分析方面开展了一定的研究,取得了诸多有价值的成果,但仍存在精度高的模型体积大,运算慢,预测效率和准确度不高等问题。针对以上不足,本文基于不同类型岩石图像数据集,利用轻量级神经网络模型对各类岩石岩性进行识别,训练得到轻量且高精度的图像分类模型,实现了多特征的优势互补,显著提高了模型的泛化能力,更好的解决岩石图像分类模型的算法精度和速度难以平衡的痛点。
1 深度卷积结构与迁移学习
1.1 深度可分离式卷积
深度卷积神经网络模型是一种基于深度学习的图像处理技术,用于从图像数据中提取特征并进行分类。这种模型通过多层卷积和池化层来学习图像的空间层次结构,同时通过全连接层进行最终的分类(马泽栋等,2022;徐小华等,2024;张凤等, 2024)。在岩石图像识别中,深度卷积神经网络模型被广泛采用,因为它能够有效地捕捉岩石图像中的复杂特征,从而实现准确的分类结果。但随着模型参数和体积的大幅度增加,这导致了计算和存储资源的极大消耗,限制了模型在实际应用中的可行性。深度可分离卷积结构的提出就是为了解决这一问题,该结构通过在卷积操作中分离空间特征和通道特征,显著减少了参数数量,降低了模型的计算负担(Chollet,2017;曹希彧等,2024;Li et al., 2024)。这种设计使得深度学习模型在保持较高性能的同时,更加轻量化和高效。深度可分离卷积结构的引入为岩石图像识别分类等任务提供了更为可行的解决方案。
深度可分离卷积方法将卷积操作分解为深度卷积和逐点卷积两个步骤,是一种独特的卷积方式。深度卷积负责提取图像的空间信息,而点卷积则负责处理每个像素的通道信息。这种结构使得深度可分离式卷积在处理图像特征时更加灵活,能够更好地适应不同形状和大小的图像特征(谢雯等,2023;刘志锋等,2024)。具体来说,对于具有 C 个输入通道和 K 个卷积核的输入特征图,其进行深度可分离卷积操作步骤如下:(1)针对每个输入通道执行单独的卷积操作。该卷积操作采用一个深度为 1 的卷积核,能生成 C 个单通道的卷积特征图 (图1);(2)对之前生成的 C个单通道卷积特征图进行逐点卷积(核为 1×1)操作,以产生最终的输出特征图(图2)。
通过采用深度可分离式卷积结构,将原有的大型卷积操作分解为两个小型卷积,可以大幅减少模型的参数量和计算量,加速模型的训练和推理过程,使得在有限资源的移动端设备上也能高效地运行深度神经网络模型。这对于野外地质调查等需要实时反馈的场景具有重要意义,可以帮助工作人员更加准确地识别岩石岩性,从而更好地指导地质工作。
1.2 迁移学习模型
传统机器学习模式在处理不同的学习任务时,每个任务都需要建立单独的学习系统。然而,如果不同任务之间存在相似性,那么为每个任务建立单独的学习系统可能会造成资源的浪费。此时,可以考虑采用迁移学习模式,将从源任务中学到的知识迁移到目标任务的学习系统中,可以显著降低模型训练难度(Saida and Nishio,2023;Satrya and Yun, 2023;Sheik et al.,2023;张胜等,2024)。本文通过采用迁移学习模式,应用 PP-LCNet 轻量级神经网络模型对不同岩石岩性图像进行训练,从而得到岩性分类识别结果。
2 轻量级神经网络模型训练与岩性识别方法
模型训练与识别的整体流程如下:首先准备岩性图像训练数据集,进行数据增强处理,以增加数据的多样性和丰富性。这一步骤为后续的模型训练提供了基础数据。随后,选择预先训练过的轻量级神经网络模型PP-LCNet,在岩性图像数据集上进行迁移训练,得到岩性识别模型,并对图像测试数据集进行模型测试,进而得到岩性识别结果。
2.1 岩石图像数据集搜集及预处理
研究使用的岩石图像数据集主要通过国家岩矿化石标本资源共享平台数据库、实验室标本照片以及互联网搜索等方法搜集得到,主要包括“二长花岗岩”、“花岗闪长岩”、“白云石大理岩”、“方解石大理岩”、“长石石英岩”、“煤”、“石灰岩”、“石英砂岩”、“长石砂岩”等不同类别共计 2700 张岩石图像。为避免预测过程中出现样本数据不均衡的现象,每类岩石图像均为 300 张,数量保持一致,其中每种岩石图像训练数据集为 210 张,验证数据集为 60张,测试数据集为30张。依此构建岩石图像数据集。每张图像都是经过筛选岩石新鲜面后的具有相关岩石种类特征的图片,均为随机抽取分布。
为提高模型训练效果,训练开始前通过图像翻转、图像裁剪、图像混叠、改变对比度与调整亮度等图像数据增强方法,使数据多样化并对数据集样本进行扩充,并通过将每张图像的像素值除以自身的标准差,进行标准化处理,样本图像大小均小于 3 Mb(图3)。
图3部分预处理后图像数据集的可视化训练样本
2.2 PP-LCNet轻量级卷积神经网络模型
轻量级神经网络的核心是在尽量保持精度的前提下,从体积和速度两方面对网络进行轻量化改造(周志飞等,2024)。目前,高效卷积核(如 Mobile Net或Shuffle Net等)(Gupta et al.,2023)和特征复用的网络模型(如 Res Net 和 Dense Net 等)(Zhang et al.,2019;Liang,2020)都存在一定缺陷。例如卷积核参数少,图像特征提取不充分,模型精度损失严重。密集连接涉及大量聚合操作,导致模型较为复杂。故要在保证性能的同时降低模型大小,应采用轻量化的卷积核,并结合高效的网络结构。同时,添加注意力机制模块有助于提高模型性能。
为了在不增加推理时间的情况下提高图像识别模型的性能,本文以 PP-LCNet 轻量级卷积神经网络模型为基础模型,使用 MobileNetV1(Howard et al.,2019)中提出的深度可分离卷积(DepthSepConv)作为基本模块,结合H-Swish激活函数,其函数表达式如式(1)所示。并在网络尾部的块中添加了 Squeeze-and-Excitation(SE)注意力机制模块,使得准确度与速度之间达到了更好的平衡。同时在网络尾部使用 5×5 卷积核替换 3×3 卷积核,保证模型的推理速度。为了增强网络的拟合能力,在全局平均池化(Global Average Pooling,GAP)层之后添加了一个 1280维的 1×1卷积,可以在不增加模型运行时间的情况下提高图像识别模型的整体性能(图4)。该基础模型通过在大规模图像分类数据集ImageNet 上的训练,预先学习到了丰富的图像特征,由此生成了预训练权重,并依据岩石图像数据集搭建了密集连接分类器。网络结构如表1所示(黑色线框内为搭建的密集连接分类器)。
图4PP-LCNet模型详细结构图
由表1可知,模型中增加了输出维度为 1024的 Dense 层,并在其后设置了 Dropout 层,Dropout 率设为 0.4,表示在每次训练迭代进行参数更新的过程中,网络中40%的神经元会被随机断开。这一机制确保了任何一个神经元的输出不会过分依赖于其他神经元,从而防止出现过拟合,提升模型泛化性能。在末尾设置一个输出维度为6的Dense层,并应用 Softmax 函数,以确保模型的输出种类与实际数据集种类相一致。
(1)
式(1)中,x为激活函数的输入值,ReLU6=min(6,max(0,x))。
图4中虚线框表示可选模块,主干部分使用标准的3×3卷积,DepthSepConv表示深度可分离卷积, DW(depth-wise convolution)表示深度卷积,PW (point-wise convolution)表示逐点卷积,GAP(Global Average Pooling)表示全局平均池化。
表1网络模型结构
注:SE表示该块中是否存在Squeeze-and-Excitation模块。
本文在模型训练过程中以搜集到的不同种类岩石图像数据作为模型输入,训练参数里迭代轮数设置为10,学习率(Learning rate)为0.005,优化函数采用随机梯度下降法,使用交叉熵验证损失,并在训练过程中实时监测精度。模型训练在 NVIDIA GeForce RTX 4060 显卡上进行,单步训练时间为1 s。
为了更高效地识别岩石图像特征,本文采用了基于 fine-tuning 的迁移学习技术,在训练过程中不断对迭代轮数、学习率等关键参数进行调整,通过多次实验对比,最终确定迭代轮数设为 1000,采用随机梯度下降法作为优化器,并将学习率调整至 0.001以确保稳定收敛,利用交叉熵损失函数验证模型性能,并实时监测训练精度,在训练过程结束后,即可获得一个经过优化和验证的岩石图像识别模型,可用于准确识别不同类别的岩石图像。
3 岩性识别结果分析
根据岩石图像的特点,本文建立 PP-LCNet 轻量级神经网络模型对岩石图像进行智能识别分类,通过网络搭建、模型训练及测试,自动训练得到轻量且高精度的图像分类模型,从而更好地解决岩石图像分类模型的算法精度和速度难以平衡的难点。
3.1 深度学习模型岩性识别
由于岩石图像数据集种类较为详细,为保证模型能够对每一种岩性图像进行精确识别,同时又不消耗过多的性能和时间,本文采取迁移学习对数据进行迁移训练。训练过程中 1 000次迭代过程中损失和准确率变化的趋势如图5所示。训练损失在迭代 900 次后开始稳定,并接近于 0,训练准确率在迭代 400 次后开始呈现收敛,在 900 次迭代后呈现稳定状态,接近90%,训练结果模型大小仅12.9 MB。
图5训练过程中损失值(a)与准确率收敛曲线(b)
为评估训练模型的鲁棒性和性能,从训练集中随机选取了 270 张各类岩石的图片作为测试对象。采用精准率(Precision,P)、召回率(Recall,R)和综合评价指标(F1)对分类结果进行评价。公式如式(2)~(4)。
(2)
(3)
(4)
式(2~4)中:Tp代表正确分类为某类岩石的样本数量;Fp代表错误分类为某类岩石的样本数量;Fn 代表本应被分类为某类岩石但未被正确分类的样本数量。
模型识别结果与分类评估结果如表2和表3所示,整体分类平均指标结果较好,AUC 值均达到 90% 以上,说明该模型具有较好的鲁棒性。明显可知煤矿石识别效果最佳,石英砂岩、方解石大理岩以及长石砂岩识别效果较好,长石石英岩识别效果最低。
表2模型识别结果
表3整体分类评估结果
表4模型整体加权平均指标
本研究属于多分类任务,故采用宏平均和加权平均这两种机器学习理论中的评价指标来评估结果。宏平均(macro-average)是将不同类别的评价指标相加求平均,给所有类别相同的权重,但是指标值会受类别较少的样本的影响。加权平均 (weighted-average)是考虑计算各个岩石类别按照图片数量的加权平均指标对模型结果进行评估,结果更为精确。因此,本文采用加权平均(weighted-average)作为评价指标对模型结果进行评估。模型各项指标的整体加权平均结果如表4所示。整体而言,模型在测试集上的识别结果各项评估指标均超过 80%,泛化能力较强,能够较好地对不同类别的岩石图像进行分类和识别。
3.2 不同分类模型对比结果
为了比较不同轻量级神经网络在岩性识别分类模型上的性能,本文另分别采用 MobileNetV2、 MobileNetV3、ResNet50、Xception65 以及 ShuffleNetV2 等分类模型对岩性图像数据进行智能识别,采用平均识别精度与单张图像识别时间为指标,与 PP-LCNet轻量级神经网络模型进行对比,模型结果如表5所示。通过模型调试对比实验可知,PP-LCNet轻量级深度卷积神经网络模型在识别速度和识别精度均衡方面要优于 MobileNetV2、MobileNetV3、ResNet50、Xception65 以及 ShuffleNetV2 等分类模型(图6)。
表5不同模型调试结果对比
图6不同模型准确率-识别时间比较结果
根据以上模型结果,可知 PP-LCNet 轻量级深度卷积神经网络模型的识别结果更加准确,经过对模型深度和识别正确率的比较,最终选取PP-LCNet 模型继续进行调试,结果如表6所示,综合选择批量大小(Batch size)为 15,学习率(Learning rate)为 0.005的PP-LCNet模型作为深度学习模型来进行岩石图像识别。模型保存输出后进行模型识别效果测试,发现部分岩石图像存在误判情况,主要集中在纹理相似或颜色相近的岩石类型之间。例如,在某些花岗岩图像中,由于岩石表面存在风化层或杂质,导致图像的颜色和纹理特征与正常花岗岩有所差异,模型将其误判为石英岩(图7)。此外,部分样本由于图像背景干扰、光照不均以及拍摄角度等原因导致结构特征不明显,也影响了模型判断。基于上述分析,在后续工作中提出以下几个优化方向: ①增加数据增强与清洗手段以提高模型对不同环境条件的适应能力;②优化模型结构。尝试在模型中引入更先进的注意力机制或多尺度特征融合模块,增强模型对关键特征的捕捉能力;③引入多模态特征。除了图像特征外,结合岩石的化学成分、物理性质等多模态数据,提高模型的识别能力。
表6PP-LCNet模型调试结果
图7模型误判举例
在岩石图像识别任务中,当遇到未在训练数据集中的岩石类型时,模型可能会错误地将未知类别预测为已知类别,导致模型可靠性下降。针对这一问题,未来将从以下几方面进行解决:
(1)开放数据集与持续更新:建立开放的岩石图像数据集平台,鼓励地质学家和研究者贡献更多样化的岩石图像数据,定期更新模型训练集,提升模型的泛化能力。建立数据收集-标注-模型更新的闭环,逐步覆盖更多的岩石类型。
(2)引入异常检测机制:在实验设计中增加“未知类检测”环节,通过设定置信度阈值来识别不属于训练集的样本。当输入图像与训练数据差异较大时,模型能够识别为“未知类别”或“低置信度类别”,避免错误分类。当模型对预测结果置信度低时,自动触发人工审核。
(3)动态扩展模型能力:可引入增量学习机制更新模型,使模型具备持续学习新类别岩石图像的能力。
4 结论
为了更好地服务于野外地质工作中不同类别岩石的识别与分类,本文利用轻量级深度卷积神经网络模型和迁移学习方法对岩石图像进行智能识别,研究结果表明:
(1)基于不同种类岩石图像数据集,分别对岩石图像特征进行提取与融合,采用 PP-LCNet 轻量级网络模型建立基于岩石图像智能识别的深度学习模型,从精度和速度两方面对网络进行轻量化改造,选择适合的批大小(batch size)和学习率(learning rate)参数,训练得到轻量且高精度的图像分类模型,实现了多特征的优势互补,显著提高了模型的泛化能力,识别准确率达到 80% 以上,从而解决了岩石图像分类模型算法精度与速度难以平衡的难点。
(2)以平均识别精度与单张图像识别时间为指标,将 PP-LCNet 轻量级神经网络模型识别结果分别与 MobileNetV2、MobileNetV3、ResNet50、Xception65以及ShuffleNetV2等分类模型进行对比,通过模型调试对比实验可知,PP-LCNet轻量级深度卷积神经网络模型在识别速度和识别精度均衡方面要优于 MobileNetV2、MobileNetV3、ResNet50、Xception65、ShuffleNetV2等分类模型。
(3)岩石图像的识别精度与图像训练数据集的质量以及模型算法有很大关系,对于特征明显且易于辨识的岩石图像,其识别效果更好。因此,如何更好的改善岩石图像数据集以及识别算法模型,使其在实际工作环境下仍然具有较强的适应性,从而提高模型的鲁棒性,将是一个未来继续值得深入研究的问题。
致谢 作者在样本数据搜集期间,得到中煤科工集团武汉设计研究院有限公司,全国工程勘察设计大师徐杨青的大力支持和帮助。研究过程中得到中国地质大学(武汉)刘岳教授和河南理工大学赵梦余讲师的多次指导和意见;审稿专家也提出了许多宝贵的修改建议,在此表示衷心感谢!