纳滤以其高效分离、出水稳定、集成化高与自动化运维等技术优势[1],在地表水净化、污水深度处理、工业废水回用领域受到广泛的关注与研究[2-4]。然而,纳滤膜性能长期受渗透性与选择性的制约[5],研发先进膜材料是推广纳滤膜应用的必由之路。由于膜制备过程具有关键参数多、数值分布广、组合性多样的特征,难以通过传统实验试错法逐个分析[6],亟需构建膜制备参数- 膜分离效能逆向设计的新范式[7]。
数据科学与材料研究相结合的机器学习方法具有加速膜材料研发的潜力[8]。机器学习通过分析多维数据集中的潜在趋势与规律,对新数据集进行预测与筛选[9]。因此,利用机器学习可建立膜制备参数- 膜分离效能间的关联。部分机器学习方法已应用于预测膜的渗透性、分离性能与污染过程,包括神经网络、随机森林与支持向量机等[10-12]。Gao等[13]利用分类树模型明确影响超滤膜性能的3个主要制备参数,优化超滤膜制备条件,实现超滤膜纯水通量与蛋白分离的同步提升。然而,影响纳滤膜性能的关键制备参数仍不清晰,机器学习算法应用于纳滤膜制备过程的可行性有待研究。
本研究通过膜制备过程参数归集,构建基于梯度提升集成学习的纳滤膜预测筛选模型。采用统计学方法评估机器学习模型对纳滤膜性能的预测能力;使用SHAP值法解析影响纳滤膜性能的关键参数,分析关键参数对纳滤膜性能的影响机制,明确适用于纳滤膜材料的子结构特征,为高性能纳滤膜材料的开发与应用提供理论与技术支撑。
1 模拟和方法 1.1 数据集构建基于近十年纳滤膜文献构建机器学习数据集,其中,纳滤膜纯水通量数据690个,截留数据1 550个。输入参数包括水相单体类型、水相添加剂类型、水相单体质量分数、水相添加剂质量分数、油相单体类型、油相单体质量分数、有机溶液类型、聚合时间、热交联温度、热交联时间、基膜类型、基膜孔径等纳滤膜制备过程的典型条件。对于文献中缺少的参数记录为缺失值,最终形成了纳滤膜纯水通量与截留性能两个数据集。
1.2 数据预处理使用摩根指纹指代不同的水相单体分子。对于分子中的每个原子,基于拓扑距离形成相应的子结构特征集合,并将子结构特征转换为二进制数据。随着拓扑距离设置值增大,一个分子求解的特征指纹量增加,导致位相量上摩根指纹重叠。为了避免上述情况,将摩根指纹的拓扑距离设置为0,与机器学习模型的超参数一同优化。针对类别型数据,使用反向差分编码与Helmert编码方式转化为特征编码。对于纯水通量的数值型数据,基于100 kPa的跨膜压差进行均一化处理,通过幂变换使数据呈现高斯分布;对于截留性能的数值型数据,使用鲁棒性缩放法处理,避免数据集内异常值的影响。
1.3 机器学习模型选择两种梯度提升集成学习算法:XGBoost与LightGBM机器学习模型。将80%的数据集划分为训练集,剩余20%的数据集划分为测试集,定义机器学习模型的超参数范围,以五折交叉验证法构建目标函数,采用贝叶斯算法搜索目标函数的最优超参数集。对于数据集中的缺失值,使用现有数据计算最佳分裂点及划分至左子树或右子树的增益,选择增益较大的方向作为节点中特征缺失样本的分配方向。
1.4 模型评价通过结合决定系数(R2)、平均绝对误差(EMA)与均方根误差(ERMS)评估机器学习模型的预测效果,相关公式如下:
$ \begin{gathered} R^2=1-\frac{\sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right)^2}{\sum\limits_{i=1}^n\left(y_i-\bar{y}\right)^2} \\ E_{\mathrm{MA}}=\frac{\sum\limits_{i=1}^n\left|\left(\hat{y}_i-y_i\right)\right|}{n} \\ E_{\mathrm{RMS}}=\sqrt{\frac{\sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right)^2}{N}} \end{gathered} $ |
式中:yi为第i个样本的实际值,
SHAP是一种基于博弈论手段解释机器学习模型预测结果的方法,可用于模型的全局解释和局部解释。采用SHAP值法评估每个输入参数对于模型的重要性。SHAP值按照以下公式计算:
$ \begin{aligned} \phi(f, x)= & \sum\limits_{S \subseteq N} \frac{(|S|-1)!(n-|S|-1)!}{n!}(f(S)- \\ & f(S \backslash x)) \end{aligned} $ |
式中:ϕ(f, x)为参数x的SHAP值,N为所有输入参数的集合,S表示包含参数x的子集,|S|为S中的参数数量,n为输入参数数量。
2 结果与讨论 2.1 数据集统计分析高性能纳滤膜制备与应用的关键参数包括基膜结构与特性、界面聚合反应过程、后处理条件等。其中,水相单体、水相添加剂、油相单体的种类、质量分数、浸泡时间对纳滤膜性能有显著影响,图 1为数据集中水相单体质量分数、水相添加剂质量分数、油相单体质量分数与聚合时间的统计分析图。结果表明,水相单体质量分数主要集中在0.35~2.00(图 1(a)),当采用疏水性基膜、弱活性水相单体或低水相浸泡时间等条件时,需增加水相单体质量分数使基膜表面吸附足够的水相单体用于后续的界面聚合反应。水相添加剂质量分数的第一和第三四分位数为0.10%与1.00%(图 1(b)),数据分布范围相比水相单体质量分数的分布范围更窄,且投加量通常低于水相单体质量分数。水相单体和油相单体是界面聚合形成有机高分子聚合物的主要物质,水相添加剂可局部参与界面聚合反应,调控有机高分子聚合物的孔径、孔隙率或自由体积分数,过量添加将抑制有机高分子聚合物的形成,因此,投加量通常低于水相单体质量分数。油相单体质量分数主要集中在0.01~0.50(图 1(c)),数值分布较大。聚合时间主要分布在5~240 s(图 1(d)),中位数为60 s,数据分布集中,特征异常值少。综上,纳滤膜制备过程呈现关键参数多、数值分布广、组合性多样的特征,由于膜制备参数与膜分离效能间的关系不明,阻碍了高性能纳滤膜的开发。
基于纳滤膜制备参数的数据集,采用机器学习模型预测相应纳滤膜纯水通量与截留性能。其中,80%的数据集样本随机划分为训练集,剩余20%的样本划分为测试集。在数据集处理过程中,利用摩根指纹指代不同的水相单体,通过反向差分编码与Helmert编码方式转化类别型数据,使用鲁棒性缩放法归一化数值型数据,降低数据集中异常值的影响。定义机器学习模型的超参数范围,以五折交叉验证法构建基于ERMS的目标函数,通过贝叶斯算法搜索目标函数的最优超参数集,形成XGBoost与LightGBM机器学习模型,测试集与训练集的预测值和真实值对比如图 2所示。总体而言,XGBoost与LightGBM机器学习模型对纳滤膜纯水通量与截留性能都具有较好的预测能力,测试集中的数据大部分位于真实值的95%置信区间。XGBoost与LightGBM均属于梯度提升集成学习算法,表明梯度提升决策树算法在纳滤膜性能预测方面具有优异的性能。Lu等[14]使用基于纳滤膜结构参数的数据集,通过XGBoost机器学习模型预测纳滤膜对一价/二价离子的选择性分离性能,结果显示,XGBoost机器学习模型可有效预测纳滤膜的选择分离特性,并为纳滤膜结构参数的优化提供理论依据。然而,对于使用不同制备方法的二维层状膜、共价有机框架膜、氢键有机框架膜,由于制备原理的不同及数据的有限性,难以通过当前的模型预测。
表 1使用统计学指标进一步分析XGBoost与LightGBM机器学习模型对纯水通量和截留性能的预测能力。纯水通量预测方面,XGBoost机器学习模型在训练集预测方面均优于LightGBM机器学习模型;二者在测试集上的R2值一致,均为0.84,略低于训练集R2值;XGBoost机器学习模型的测试集EMA(2.95)略低于LightGBM机器学习模型(3.05);XGBoost机器学习模型的测试集ERMS与LightGBM机器学习模型相近。上述结果表明,XGBoost机器学习模型在纯水通量预测方面略优于LightGBM机器学习模型,但二者预测能力相近,均可依据纳滤膜制备参数有效预测纳滤膜的纯水通量。
截留率预测方面,XGBoost机器学习模型在测试集上的性能均优于LightGBM机器学习模型,R2为0.90、EMA为6.26、ERMS为9.18,表明XGBoost机器学习模型在处理高维稀疏数据时具有较好的效果,这与XGBoost算法采用二阶求导最小化目标损失有关。相比纯水通量预测,XGBoost机器学习模型对截留率预测具有更高的R2值,该结果是由于盐截留率数据集具有更大的数据量,提高了XGBoost机器学习模型的预测能力。综上,XGBoost与LightGBM机器学习模型在测试集上都具有良好拟合精度,证明了机器学习模型对纳滤膜性能预测的准确性。由于XGBoost机器学习模型在截留性能预测方面具有更好的性能,在后续研究中主要使用XGBoost机器学习模型进行分析。
2.3 机器学习模型的解释分析使用SHAP值法对机器学习模型进行解析,SHAP值是对参数权重的无偏估计,绝对平均SHAP值越大,说明参数对于模型的影响越大[15]。通过计算数据集中每个样本参数的绝对平均SHAP值,可以明确关键制膜参数,图 3为基于XGBoost机器学习模型的膜制备参数绝对平均SHAP值。基于参数权重排序可以看出,水相单体质量分数、基膜类型、运行压力、热交联时间、基膜膜孔、热交联温度、聚合时间对纳滤膜纯水通量与截留性能均有显著影响。
针对纳滤膜纯水通量,水相单体质量分数与基膜类型具有最高的绝对平均SHAP值,分别为2.77与2.59。因此,在高通量纳滤膜制备过程中,需要优先调控水相单体质量分数。同时,Karan等[16]通过调控基膜的化学结构特性,改变水相单体的吸附容量与扩散速率,优化界面聚合的反应过程,成功制备出高通量纳滤膜。水相添加剂质量分数的绝对平均SHAP值为1.31,在前期研究中,通过使用水相添加剂制备纳米复合纳滤膜,可以在维持或小幅度降低截盐率的情况下显著提升纯水通量[17]。运行压力、油相单体质量分数、热交联时间等参数对纳滤膜纯水通量均有一定影响。
通过纳滤膜截留性能可以看出,10种关键参数的绝对平均SHAP值接近。聚合时间为纳滤膜截留性能最重要的影响因素,绝对平均SHAP值为2.07。基膜类型为次重要影响因素,表明纳滤膜制备过程中不仅需要关注界面聚合的反应参数,也需选择合适的基膜作为反应载体,并提供足够的机械稳定性。水相单体的子结构特征2633和2641均起到一定的影响,绝对平均SHAP值为1.89和1.07。因此,在调控纳滤膜截留性能时需关注水相单体的子结构特征。
基于膜制备参数的权重排序,分析数据集内关键参数对纳滤膜纯水通量与截留性能的影响,具体结果如图 4所示。各参数的SHAP值分布于特征线上,原点右侧的点表示该参数对目标结果的正向作用,原点左侧的点则表示该参数对目标结果有反向作用,且SHAP值的绝对值越大对目标结果的影响越大[18]。纯水通量(图 4(a))结果显示,高水相单体质量分数将降低纳滤膜通量,这是由于水相单体质量分数升高将增加纳滤膜的交联度,导致纳滤膜通量下降。由于基膜类型是类别型参数,难以通过SHAP值直观判断对纳滤膜性能的影响,水相单体的子结构特征90对纳滤膜通量有反向作用,可以适当降低水相单体中的子结构特征90,实现高通量纳滤膜的开发。
纳滤膜截留性能(图 4(b))表明,较高的聚合时间对截留性能有负面影响,上述结果与实际反应过程相悖[19]。结合水相单体类型分析可以看出,较低的单体活性需要更长的单体聚合时间,且低活性单体制备的纳滤膜具有低截留特性。高活性单体可快速反应形成致密的有机高分子聚合物,实现纳滤膜对盐离子的有效截留。水相单体的子结构特征2633与2641对纳滤膜截留性能均有反向作用,降低相应的子结构特征有助于提升纳滤膜截留性能。以上结果表明,通过SHAP值法可解析膜制备参数与膜分离效能间的关联,为高性能膜材料开发提供理论方向。
选取水相单体质量分数、水相添加剂质量分数、油相单体质量分数、聚合时间作为纳滤膜制备的关键参数,图 5为4种关键参数对膜性能的影响。图 5(a)表明,当水相单体质量分数小于2%时,有助于提升纳滤膜通量;当水相单体质量分数大于2%时,SHAP值趋向于负值,对水通量的促进作用转变为抑制作用。由于水相单体种类多样,难以通过水相单体质量分数判断纳滤膜截留性能。
水相添加剂质量分数分析(图 5(b))表明,水相添加剂质量分数的上升有助于纳滤膜纯水通量的提高,以上结果与大部分文献的报道一致。水相添加剂可增大纳滤膜孔径、表面粗糙度、界面亲水性,从而加快水分子的传输[20]。然而上述特性将在一定程度上降低纳滤膜的截留性能,水相添加剂质量分数的截盐率SHAP值趋向负值。部分数据表明,合理调控水相添加剂质量分数可同步提升纯水通量与截盐性能。
油相单体质量分数分析(图 5(c))表明,降低油相单体质量分数有助于提升纯水通量,然而较低的油相单体质量分数不利于盐离子的截留。可以观察到0.1%~0.3%条件下可同时促进纳滤膜纯水通量与截盐率。界面聚合时间(图 5(d))分析表明,120 s内时,聚合时间的延长对纯水通量起负面作用,对截留率起促进作用。对于需要更长聚合时间的条件,低活性单体适用于制备高纯水通量与低截盐率的纳滤膜,高活性单体则适用于制备高截盐率的纳滤膜。因此,通过膜制备关键参数的分析,可以基于实际工艺需求设计面向不同应用领域的纳滤膜。
2.4 单体子结构特征解析基于SHAP模型分析,提取影响纳滤膜性能的关键单体子结构特征。由于数据集中面向纯水通量与截留性能的摩根指纹长度设置不同,相同的子结构特征在不同模型下的特征值并不相同。图 6(a)为与纳滤膜纯水通量相关的可视化特征分子指纹。结果表明,子结构特征1831与1674与纯水通量呈正向关系,亲水性基团如羧基(特征1831)与羟基(特征1674)有利于提升膜的纯水通量。同时,有机高分子聚合物内支链(特征1与1380)的增加有助于增大自由体积分数,加快水分子在纳滤膜内的传输。胺基(特征90与147)为界面聚合的主要官能团,胺基基团的增加促进与酰氯基团的交联,导致纳滤膜的水通量下降。图 6(b)为与纳滤膜截留性能相关的可视化特征分子指纹,与纯水通量的结果相反,亲水性基团如羟基(特征2641)对膜的截留性能有负面影响,胺基(特征2741)则促进纳滤膜的截留性能。基于上述分析,推测使用聚乙烯亚胺、1, 2-丙二胺、1-(2-氨乙基)哌啶等单体有助于开发突破渗透性/选择性制约的纳滤膜。
1) 基于XGBoost与LightGBM机器学习模型建立纳滤膜制备参数与纳滤膜性能的关联,测试集预测能力分析表明,XGBoost与LightGBM机器学习模型对纯水通量的R2评价指标均为0.84,对截留性能的R2评价指标分别为0.90与0.86,表明机器学习模型可基于纳滤膜制备参数有效预测纳滤膜性能。
2) 采用SHAP值法对XGBoost机器学习模型中的输入参数进行量化,结果表明,水相单体质量分数增加对纳滤膜纯水通量有负面影响;水相添加剂质量分数增加有助于纳滤膜纯水通量的提升,但对截留性能有反向作用;降低油相单体质量分数有助于提升纯水通量,然而较低的油相单体质量分数不利于盐离子的截留。
3) 纳滤膜制备过程中的单体子结构特征分析结果显示,亲水性子结构特征、支链型子结构特征有助于提升纳滤膜纯水通量;羟基官能团对膜的截留性能有负面影响,胺基官能团则促进纳滤膜的截留性能。
[1] |
梁恒, 李圭白. 饮用水净化工艺的代际认知与融合[J]. 给水排水, 2021, 57(1): 1. LIANG Heng, LI Guibai. Generations' implication and integration of drinking water purification processes[J]. Water & Wastewater Engineering, 2021, 57(1): 1. DOI:10.13789/j.cnki.wwe1964.2021.01.001 |
[2] |
LIN Dachao, BAI Langming, XU Daliang, et al. Effects of oxidation on humic-acid-enhanced gypsum scaling in different nanofiltration phases: performance, mechanisms and prediction by differential log-transformed absorbance spectroscopy[J]. Water Research, 2021, 195: 116989. DOI:10.1016/j.watres.2021.116989 |
[3] |
XU Daliang, ZHENG Junfeng, ZHANG Xin, et al. Mechanistic insights of a thermoresponsive interface for fouling control of thin-film composite nanofiltration membranes[J]. Environmental Science & Technology, 2022, 56(3): 1927. DOI:10.1021/acs.est.1c06156 |
[4] |
丁晶, 关淑妍, 赵庆良, 等. 垃圾渗滤液膜滤浓缩液处理技术研究与应用进展[J]. 哈尔滨工业大学学报, 2021, 53(11): 1. DING Jing, GUAN Shuyan, ZHAO Qingliang, et al. Research and application status of treatment methods of landfill leachate membrane concentrate[J]. Journal of Harbin Institute of Technology, 2021, 53(11): 1. DOI:10.11918/202104049 |
[5] |
XU Daliang, ZHU Xuewu, LUO Xinsheng, et al. MXene nanosheet templated nanofiltration membranes toward ultrahigh water transport[J]. Environmental Science & Technology, 2021, 55(2): 1270. DOI:10.1021/acs.est.0c06835 |
[6] |
GAO Haiping, ZHONG Shifa, ZHANG Wenlong, et al. Revolutionizing membrane design using machine learning-bayesian optimization[J]. Environmental Science & Technology, 2022, 56(4): 2572. DOI:10.1021/acs.est.1c04373 |
[7] |
IGNACZ G, BEKE A K, SZEKELY G. Data-driven future for nanofiltration: escaping linearity[J]. Journal of Membrane Science Letters, 2023(3): 100040. DOI:10.1016/j.memlet.2023.100040 |
[8] |
FLEISCHMAN R B, FARROW K T. Seismic response of perimeter lateral-system structures with highly flexible diaphragms[J]. Earthquake Spectra, 2002, 18(2): 252. DOI:10.1193/1.1490547 |
[9] |
王晓明, 汪帆, 赵建领, 等. 基于机器学习的斜拉索装配容差区间反演方法[J]. 哈尔滨工业大学学报, 2023, 55(7): 60. WANG Xiaoming, WANG Fan, ZHAO Jianling, et al. Machine learning-based assembly fault-tolerant interval inversion method for stay cables[J]. Journal of Harbin Institute of Technology, 2023, 55(7): 60. DOI:10.11918/202205118 |
[10] |
JEONG N, EPSZTEIN R, WANG Ruoyu, et al. Exploring the knowledge attained by machine learning on ion transport across polyamide membranes using explainable artificial intelligence[J]. Environmental Science & Technology, 2023, 57(46): 17851. DOI:10.1021/acs.est.2c08384 |
[11] |
ZHANG Yanyang, GAO Xiang, SMITH K, et al. Integrating water quality and operation into prediction of water production in drinking water treatment plants by genetic algorithm enhanced artificial neural network[J]. Water Research, 2019, 164: 114888. DOI:10.1016/j.watres.2019.114888 |
[12] |
ZHU Tengyi, ZHANG Yu, TAO Cuicui, et al. Prediction of organic contaminant rejection by nanofiltration and reverse osmosis membranes using interpretable machine learning models[J]. Science of the Total Environment, 2023, 867: 159348. DOI:10.1016/j.scitotenv.2022.159348 |
[13] |
GAO Haiping, ZHONG Shifa, DANGAYACH R, et al. Understanding and designing a high-performance ultrafiltration membrane using machine learning[J]. Environmental Science & Technology, 2023, 57(46): 17831. DOI:10.1021/acs.est.2c05404 |
[14] |
LU Dan, MA Xuanchao, LU Jiancong, et al. Ensemble machine learning reveals key structural and operational features governing ion selectivity of polyamide nanofiltration membranes[J]. Desalination, 2023, 564: 116748. DOI:10.1016/j.desal.2023.116748 |
[15] |
程婉清, 袁定波, 熊鹏, 等. 基于多种机器学习算法的水质指数预测模型构建与评估[J]. 环境科学学报, 2023, 43(11): 144. CHENG Wanqing, YUAN Dingbo, XIONG Peng, et al. Construction and evaluation of city water quality index prediction model based on multiple machine learning algorithms[J]. Acta Scientiae Circumstantiae, 2023, 43(11): 144. DOI:10.13671/j.hjkxxb.2023.0182 |
[16] |
KARAN S, JIANG Zhiwei, LIVINGSTON A G. Sub-10 nm polyamide nanofilms with ultrafast solvent transport for molecular separation[J]. Science, 2015, 348: 1347. DOI:10.1126/science.aaa5058 |
[17] |
YIN Jun, YANG Zhe, TANG C Y, et al. Probing the contributions of interior and exterior channels of nanofillers toward the enhanced separation performance of a thin-film nanocomposite reverse osmosis membrane[J]. Environmental Science & Technology Letter, 2020, 7(10): 766. DOI:10.1021/acs.estlett.0c00507 |
[18] |
张霄, 董毅, 林赛赛, 等. 机器学习加速能源环境催化材料的创新研究[J]. 能源环境保护, 2023, 37(3): 1. ZHANG Xiao, DONG Yi, LIN Saisai, et al. Machine learning accelerating innovative researches on energy and environmental catalysts[J]. Energy Environmental Protection, 2023, 37(3): 1. DOI:10.20078/j.eep.20230511 |
[19] |
ZHAO Rui, LI Yi, MAO Yafei, et al. Recycling the high-salinity textile wastewater by quercetin-based nanofiltration membranes with minimal water and energy consumption[J]. Environmental Science & Technology, 2022, 56(24): 17998. DOI:10.1021/acs.est.2c06397 |
[20] |
SHAO Senlin, ZENG Fanxi, LONG Li, et al. Nanofiltration membranes with crumpled polyamide films: a critical review on mechanisms, performances, and environmental applications[J]. Environmental Science & Technology, 2022, 56(18): 12811. DOI:10.1021/acs.est.2c04736 |