摘要
常规的金矿成矿规律及成矿预测方法,对成矿空间的识别缺乏精确度,导致金矿成矿预测准确性较差。基于此,本文提出新疆大河沿地区金矿成矿规律及成矿预测方法。首先,对收集的数据进行清洗和归一化处理;其次,基于SVM算法分析成矿控制因素,获得成矿重要特征,由此实现成矿规律分析,为识别可能的矿化区域奠定基础,提高金矿成矿预测成功率;然后采用小波分解方法提取潜在的成矿信息,并对空间权重系数进行计算,再结合已有的成矿标签数据建立识别函数,实现成矿有利部位识别;最后,基于识别结果,使用随机森林方法,实现新疆大河沿地区金矿成矿预测。结果表明,使用本文设计的方法,成矿预测的AUC值达到0.9以上,能够对成矿进行准确的预测,具有较好的应用价值。
Abstract
The conventional metallogenic regularity and metallogenic prediction methods of gold mines lack accuracy in identifying the metallogenic space, resulting in poor accuracy of metallogenic prediction of gold mines. Based on this, this paper proposes the metallogenic regularity and metallogenic prediction methods of gold deposits in the Daheyan area of Xinjiang. First, clean and normalize the collected data; secondly, based on the SVM algorithm to analyze the controlling factors of mineralization and obtain the important characteristics of mineralization, the analysis of mineralization laws can be achieved, laying the foundation for identifying possible mineralization areas and improving the success rate of gold mineralization prediction. Then, the wavelet decomposition method is adopted to extract the potential mineralization information, and the spatial weight coefficient is calculated. Combined with the existing mineralization label data, an identification function is established to achieve the identification of favorable mineralization locations. Finally, based on the identification results, the random forest method was used to achieve the prediction of gold mineralization in the Daheyan area of Xinjiang. The results show that by using the method designed in this paper, the AUC value of mineralization prediction reaches above 0.9, which can accurately predict mineralization and has good application value.
0 引言
由于金矿资源逐渐减少,金矿勘查成为一项迫切需求(李会恺等,2023)。黄金是一种重要的贵金属,具有良好的导电性和化学稳定性(秦波等, 2022)。新疆矿产资源丰富,地质空间规律特征明显,同时地层相对简单,局部呈现出明显的层控金矿矿化现象,且该地区矿产在空间上具有多样化和复杂性(曹锦元等,2023)。一直以来,对金矿成矿规律进行分析,是金矿勘探的重要研究内容(贾润幸和方维萱,2021)。因此对新疆地区金属矿区分布的延展等进行分析,并对成矿规律进行研究,有助于预测矿产资源的分布情况。
在金矿成矿规律以及成矿预测研究上,庞振山等(2023)提出成矿地质体找矿预测方法,通过对不同矿区的影像进行研究,分析成矿地质条件,并根据遥感影像,进行数据的类比,该方法从区域尺度上来探讨成矿规律,结合了相-类比等理论,以求异理论为基础,构建了数学模型,实现成矿预测。该方法对数据的依赖度较高,但却未考虑对数据进行处理,导致预测结果的准确性受到影响。严光生等(2023)提出成矿地质体找矿预测,根据岩层划分以及综合矿产信息,使用半监督学习方法,解决了原始数据充满不确定性等问题。该方法可以处理高维数据,具有非线性特征等特点,在金矿成矿规律以及预测上取得了较好效果。该方法通常涉及多个模型参数的选择和调整,然而却未充分考虑到参数的设置,导致模型可能出现过拟合或欠拟合现象,进而影响预测结果的准确性。基于上述研究,为提高预测的准确性,本文提出新疆大河沿地区金矿成矿规律及成矿预测方法。采用SVM方法进行成矿因素分析,该方法在处理非线性和高维数据方面具有较好的效果,通过 SVM有助于识别出具有较大影响的成矿特征,以提高成矿规律分析的有效性,进而提高成矿区域识别的精度,为成矿预测提供可靠的支撑。并在此基础上,采用随机森林方法,根据识别的成矿区域,进行金矿成矿资源预测。随机森林具备较好的灵活性、鲁棒性和适应性,能够应对高维数据和非线性关系,同时还能够评估特征重要性,进行综合分析,得出更可靠、精准的成矿预测。选择使用两次机器学习的方法是为了综合利用不同算法的优势,以克服其中单一方法的局限性,提高金矿成矿预测的准确性和稳定性,使得金矿成矿预测能够更加可靠。本文具体的技术路线如图1所示。
1 新疆大河沿地区金矿成矿规律及成矿预测方法
1.1 数据处理
本文通过地质地貌调查、采样等地质勘探工作,在新疆大河沿地区收集金矿矿成数据。包括地质剖面图、钻孔数据、岩心样品分析结果、地球物理勘探数据(如地震和电磁测量)等。由于数据中存在的奇异样本数据,为提高后续分析的有效性,对收集的数据,进行清洗以去除奇异样本数据。该过程采用Z-score(标准差法)实现,其中Z分数计算公式表示如下:
(1)
式(1)中,X 表示数据点值,μ 表示数据的均值, σ表示数据的标准差。将上述公式的计算结果与阈值比较,若超过阈值则视为异常值,对其进行剔除处理。由于不同金矿矿场、山体间在尺寸和数量差异,会对数据分析造成困难。通过归一化处理(游淳淋等,2022),将数据统一到相同的尺度范围内,使得数据具有可比性和可分析性。归一化处理,公式如下所示。
(2)
式(2)中,zmax 为样本最大参数,zmin 为样本最小参数。在此基础上,对成矿规律进行分析。
图1技术路线示意图
1.2 成矿规律分析
为了达到有效的新疆大河沿地区金矿成矿预测,需要对成矿控制因素进行分析,从而揭示成矿规律,以识别可能的矿化区域,为金矿成矿预测提供帮助,提高金矿成矿预测成功率(王大福等, 2023)。
首先从上述处理后的地质数据中提取出地质构造、岩性、矿物组成、地球化学元素含量等特征信息。将地质特征信息根据已知的成矿信息进行关联,给每个样本打上成矿类型的标签,即将地质特征样本划分为成矿样本和非成矿样本。然后利用支持向量机(Support Vector Machine,SVM)权重法找出对成矿有较大影响的特征,从而完成成矿控制因素获取,以实现成矿规律分析(刘晓悦和季红瑜, 2021)。其具体实现过程描述如下:
基于SVM算法,通过已知的成矿信息计算分类边界,并以直线为最佳划分直线(王淑军和伍式崇, 2023),对成矿规律最优超平面进行分离,过程如图2所示。
图2中,H1表示最优分离超平面的上界边界或上支持向量机。H2 表示最优分离超平面的下界边界或下支持向量机。H3 表示最优分离超平面之间的间隔或边界。黑色圆圈实体为训练样本点。L表示最优分离超平面所能容忍的最大误分类距离。胡军等(2022)基于分离的最优分离超平面,对本集被划错的参数进行描述,并引进惩罚因子,对地质特征权重进行计算,公式表示为:
图2SVM寻找最优分离超平面
(3)
式(3)中,N为复杂度参数,r为分类精度,c为原始样本参数,d 为决策参数,V 为惩罚因子。在此基础上,引入核函数,对数据的输出距离进行计算,公式表示为:
(4)
式(4)中,C为核函数,A为置信范围,H为间隔, S为控制映射阈值的位移参数。通过正定核的等价定义,以多项式空间为基础,通过非线性映射(张叶鹏等,2023),对特征进行映射,则特征映射高维空间的表达式为:
(5)
式(5)中,T为调节幅度的参数,v为条件正定核参数,b为修改参数,n为样本的输入样本参数含量。其映射网络结构图如图3所示。
图3映射网络结构图
最后对特征在高维空间中的权重进行计算,公式表示为:
(6)
式(6)中,δ为元素质量分数,β为线性样本集参数,t 为原始样本集参数,q 为非线性映射参数。在此基础上,对输出列的参数进行转换(马帅英和张建华,2021),以找出对成矿有较大影响的地质特征,从而获得成矿的控制因素,公式表示为:
(7)
式(7)中,Q 为因变量的质量分数集合,R 为非线性原样本集,K 为数值偏差表,D 为数据拟合参数。综上,成矿控制因素分析,获得成矿重要特征:地质特征、地球化学特征、地球物理特征、遥感特征等,根据这些成矿重要特征,揭示成矿规律,以识别可能的矿化区域。
根据上述内容,可得到如下新疆大河沿地区金矿成矿规律:由于该地区剪切带具有舒缓波状和分支复合的特点,这为形成局部构造扩容空间提供了条件。在断裂弯曲处,由于构造膨大,形成了有利于含矿热液富集沉淀的空间。矿区内存在多个矿化集中区段,这些区段都位于剪切带内的构造膨大的强变形带中,呈透镜状,等间距分布。在每个矿化集中区段内,金矿体主要产于韧性剪切构造弯曲膨大部位,呈透镜状分布,具有分支复合、尖灭再现特点,即在同一个区段内形成的金矿体会有多个分支并再次相交出现。综合以上成矿规律的描述,对于进一步的金矿勘探工作和找矿目标的确定具有一定的指导意义。接下来依据金矿成矿规律,来识别可能的矿化区域。
1.3 识别成矿空间
基于成矿规律分析,对成矿空间进行识别。先基于上述成矿控制因素的分析,获得重要成矿特征,采用小波分解方法以提取潜在的成矿信息(张芳娟,2022),并按照各地质信息层之间的空间关联性,对空间权重系数进行计算,以反映不同成矿要素对成矿的贡献程度,提高成矿有利部位识别准确性(王栖溪等,2022)。然后根据已有的成矿标签数据和提取的主成分成矿信息,建立识别函数,实现成矿有利部位识别。其中成矿信息要素提取过程如图4所示。
(8)
式(8)中,Y 为时间(位置)参数,W 为小波的尺度,k为信号转换参数,g为尺度压缩参数,B为迭代函数系数,在此基础上,通过迭代窗口参数,对信号细节进行分解,并对小波进行调整(夏雄刚和孙才红,2023),函数公式表示为:
(9)
式(9)中,f为变换后的小波信号,I为信息损失, u 为采样点密度,M 为采样点原始参数。通过调整后的小波按照坐标轴之间空间,对正交的坐标系进行构建(杨星等,2023),按照离散小波分离过程,对参数进行分解,离散小波分解结构如图5所示。其中,a3表示低频系数,b3表示高频系数。
图4成矿信息要素提取流程
图5小波分解
根据分解结果,对空间加权因子进行计算,公式表示为:
(10)
式(10)中,p 为共轭复合参数,L 为复合函数维度,i为化学元素值,e为元素的平均值,在此基础上,对各类要素的主成分进行提取,公式表示为:
(11)
式(11)中,o为空间加权主成分,m 为特征向量参数,l为主成分的特征参数,J为变换数据主成分。根据已有的成矿标签数据和提取的主成分成矿信息,建立识别函数,从而实现成矿识别(宋元坤等, 2023)。识别函数如下所示。
(12)
式(12)中,s 为元素含量,t 为成分判别系数,χ 为识别结果。其中,1 表示为成矿空间,0 为未识别到成矿空间。由此,实现成矿空间的识别。
1.4 金矿成矿资源预测的实现
基于成矿空间的识别结果,对金矿成矿资源进行预测。基于随机森林,根据已知金矿分布的样本数据,进行训练,通过学习析取表达式,筛选出样本最优特征因素,并通过构建多个决策树对样本进行预测(张笑寒等,2023)。随机森林具备较好的灵活性、鲁棒性和适应性,能够应对高维数据和非线性关系,同时还能够评估特征重要性,实现对金矿成矿资源的预测。随机森林金矿成矿预测示意图如图6所示。
图6金矿成矿预测示意图
在此基础上,为了提高预测的准确度,减少数据的冗杂度,对已知金矿分布的样本数据中未知自变量 U、蚀变、主成分成矿信息 Pc1、铅元素含量 Pb、岩体压缩性 RC2、断层等与成矿有关的自变量重要性进行排序,排序结果如图7所示。
图7自变量重要性排序
按照自变量重要性排序结果(图7),使用信息增益率作为分裂规则,且将信息增益率最大作为分裂属性,选取出最优分类特征因素。其信息增益率计算公式如下:
(13)
式(13)中,Gain(A)表示特征 A 对数据集的信息增益,SplInformation(A)表示特征A的值的不确定性。其中,,n 表示属性值数量,pi(v)表示第 i 个属性值的样本数特征 A 的取值为v的概率。将上述得到的成矿空间的识别结果作为输入,基于选取出最优分类特征因素,作为分裂属性来划分金矿和非金矿样本,实现金矿成矿资源的预测。则得到预测结果表示如下:
(14)
式(14)中,w为输入数据样本,P为线性不可分样本,j 为自变量重要性参数,F 为最优分类特征因素。由此得到新疆大河沿地区金矿成矿预测结果,完成金矿成矿的预测。
2 实验与分析
为了验证设计的新疆大河沿地区金矿成矿规律及成矿预测方法的有效性,进行实验。
2.1 研究区概况
选择新疆大河沿地区历史勘探数据作为样本数据。选择 1/3 的数据作为测试集,在该测试集中抽取数据进行测试,以确保随机性。研究区域隶属于吐鲁番市高昌区,属于吐鲁番盆地北部区域,温带大陆性气候,金矿床矿体顶底板的岩性,主要为块状灰岩,矿石主要以颗粒状或砂粒状存在,基岩大部分植被较少,溶洞地貌发育。其研究区域地质图如图8所示。
图8研究区域地质图
矿体主要为脉状,矿石的碎裂结构主要为侵染物构造,在断层破碎带中,锑局部矿化较为富集。
2.2 参数设置
为提高测试的可靠性,在进行测试开始前,对相关的初始参数进行设置,具体如表1所示。
表1参数设置
2.3 实验结果与分析
2.3.1 所提方法性能分析
为避免过拟合问题,以提高所得结果的准确性,随所提方法的性能进行测试分析。选择均方误差(Mean Squared Error,MSE)作为评价指标,MAE 表示预测与实际测量之间的平均差值。将上文中选取的新疆大河沿地区历史勘探数据作为样本数据,其中的2/3分为训练数据集A和验证数据集B进行测试,通过式(13)计算RMSE,其计算公式如下。
(15)
式(15)中,为预测值,yi 为真值,n 为变量个数。测试结果如表2所示。
表2MSE值对比结果
根据表2中所得结果可知,采用所提方法进行预测,其在训练数据集和测试数据集上的MSE值均较低,表现较佳,且结果一致。由此,可以说明所提方法的预测结果具有可靠性,可为后续验证提供支撑。
2.3.2 预测准确性
从图9中可以看出,庞振山等(2023)方法预测得到的 ROC 曲线,面积较大,而严光生等(2023)方法预测得到的 ROC 曲线面积较小,两者相比,庞振山等(2023)方法得预测结果较为准确。观察所提方法预测得到的ROC曲线,可以看出相对比于前面两种方法,所提方法得 ROC 曲线得面积更大,采用该方法进行预测,其具有更高的预测准确性。
图9ROC曲线结果
a—庞振山等(2023)方法;b—严光生等(2023)方法;c—本文方法
为了进一步说明 3 种方法的预测效果,对图8中大河沿8个不同区域金矿位置的预测ROC曲线的 AUC值进行统计,AUC值越高,则预测的越准确,预测效果越好,则不同方法下的 AUC 值结果如表3所示。
表3预测AUC值结果统计
根据表3所得结果可以看出,所提预测方法,对 8个区域的预测AUC值基本达到0.9以上,而庞振山等(2023)方法和严光生等(2023)方法对8个区域的预测AUC值最高分别为0.888和0.778。3种方法所得结果相比,所提方法得预测 AUC 值更高,更接近 1。由此说明其预测结果准确性较高,效果较好,能够对成矿进行准确地预测,具有较好的应用价值。这是因为所提方法为提高预测的准确性,采用 SVM 方法进行成矿因素分析,识别出具有较大影响的成矿特征,提高了成矿区域识别的精度。并在此基础上,采用随机森林方法,根据识别的成矿区域,进行金矿成矿资源预测,从而得到更为精准的成矿预测。
2.3.3 成矿远景预测
区域成矿远景潜力预测是成矿预测研究的最终目的,同时也是检验方法性能的有效手段。基于前面ROC曲线分析结果,采用所提方法进行成矿远景潜力预测评价。采用 KMO 网格将全研究区被划分成 540 个 640 m×640 m 的网格单元,采用所提方法将对每个网格的成矿潜力进行预测,则在KMO网格位置输出的成矿概率场与分布的对应情况如图10所示。
图10成矿概率场与分布的对应情况
图10中 P1~P8为识别出的已知成矿概率场分布,a~f 为预测出的 6 处成矿概率场高值区,黑色线表示断裂位置。根据上图可知,所提方法可有效获得已知矿体平面分布形态与相应的预测结果成矿概率场情况。且可预测出了 a~f 共 6 处潜在的成矿概率场。其中,a矿体位于研究区西北部,中心坐标位于(233800,3778000)附近,预测矿体呈 SN 向展布;b 矿体位于 a 矿体东约 3 km,中心坐标位于 (237000,3778000)附近,预测主矿体呈 NEE-SWW 向展布,预测副矿体与主矿体交叠呈 NNW-SSE 向展布;c 矿体位于 b 矿体南部,中心坐标(236600, 3775600)附近,预测矿体展布形态与 b 矿体较为相似,预测主矿体呈 NEE-SWW 向展布,预测副矿体与主矿体交叠,呈 NNW-SSE 方向展布;d 矿体位于研究区东北部,中心坐标位于(244000,3778400)附近,包括2条NW-SE向展布的预测矿体和一条NE-SW 向展布的预测矿体,且两种走向的预测矿体相互交切。e矿体位于d矿体南约1 km,中心坐标位于 (244000,377200)附近,预测主矿体呈 EW 向展布,预测副矿体呈 NE-SW 向展布且与主矿体交切;f矿体位于 P8 金矿的北东,中心坐标位于(245600, 3774800)附近,为 1 条 EW 向展布的预测矿体与一条NE-SW向展布的预测矿体相互交叠。
为验证预测效果,随机选取c和f区域进行了钻孔验证。c 区域内施工的钻孔,方位角 188°,倾角 50°,于 4.85~15.35 m 见到 10.5 m 厚金矿体。f 区域内施工的钻孔,方位角分别为 20°和 122°,倾角为 30°,钻孔深度 76.30~79.29 m见到 2.99 m厚金矿体。由此说明所提方法具有较强的成矿预测性能,其预测结果具有可靠性。
3 结论
(1)本文提出了一种新疆大河沿地区金矿成矿规律及成矿预测方法。基于SVM算法,对目标函数的权重进行了计算,按照各地质信息层之间的空间关联性,对空间权重系数进行了计算,实现成矿有利部位识别。并基于识别结果,使用随机森林方法,完成新疆大河沿地区金矿成矿预测。
(2)结果表明,使用本文设计的方法,预测的结果较好,能够为成矿预测提供部分借鉴意义。虽然小波分解方法和随机森林方法在一定程度上提高了预测的准确性,但这些方法的泛化能力可能受到训练数据量和多样性的限制。因此,未来会针对所提方法的泛化能力问题进一步完善,以使其适用于更广泛的地区和条件。