2024年10月27日发(作者:邰英)
第42 卷 第 11 期
2023 年11 月
分析测试学报
FENXI CESHI XUEBAO(Journal of Instrumental Analysis)
Vol.42 No.11
1510~1516
doi:10.19969/.23070102
基于随机森林算法的烟草提取物类别识别模型研究
丁
摘
莎,申涛榕,张艳飞,杜欢哲,吴
1221
榆,邹小勇
12*
(1.湖南中烟工业有限责任公司技术中心,湖南 长沙 410007;2.中山大学 化学学院,广东 广州 510006)
要:采用气相色谱-四极杆飞行时间质谱(GC-QTOF MS)获取20种烟草提取物的色谱数据,对其进行各
成分分析,构建二进制向量数据集。通过随机森林模型,优化了实验条件,对烟草提取物中提取物、油类物
质和浸膏物质3类物质,以及A、B、C、D、E和F 6个地域产地烟草提取物进行了识别,所建模型可以100%
识别烟草提取物类型和地域。
关键词:GC-QTOF MS;随机森林;烟草提取物;种类;地域;识别
中图分类号:O657.63;TB99 文献标识码:A 文章编号:1004-4957(2023)11-1510-07
Study on Classification Model for Tobacco Extracts Based on
Random Forest Algorithm
(1.Technology Center,China Tobacco Hunan Industrial Co.,Ltd.,Changsha 410007,China;2.School of
Chemistry,Sun Yat-sen University,Guangzhou 510006,China)
DING Sha
1
,SHEN Tao-rong
2
,ZHANG Yan-fei
2
,DU Huan-zhe
1
,WU Yu
1
,ZOU Xiao-yong
2*
Abstract:In this study,gas chromatography-quadrupole time-of-flight mass spectrometry(GC-
QTOF MS) was used to obtain chromatographic data of 20 types of tobacco extracts,which were then
subjected to component analysis. A binary vector datasets were constructed for the purpose of classifi⁃
cation. By employing the random forest model and optimizing experimental conditions,the identifica⁃
tion of three categories of substances(extract,essential oil,and extractum) in tobacco extracts,as
well as distinguishing tobacco extracts from six different geographical origins(A,B,C,D,E,and
F),was achieved with recognition accuracy of 100%.
Key words:GC-QTOF MS;random forest;tobacco extracts;category;geographicol origin;
identification
目前烟草行业使用的同类不同来源的烟草提取物包括不同产地、不同生产工艺的提取物、精油、
浸膏、净油、精制物等,常用的分析检测手段为气相色谱-质谱联用技术,包括气相色谱-四极杆质谱
[1][2-3]
(GC-Q MS)、气相色谱-四极杆飞行时间质谱(GC-QTOF MS)、气相色谱-离子阱质谱(GC-IT MS)
[4-5]
和气相色谱-三重四极杆串联质谱(GC-QQQ MS)等。其中GC-QTOF MS的优势在于:一方面高分辨
飞行时间质谱具有分辨率高、扫描速度快等优势,可通过与其他质谱串联实现多级质谱分析的要求;
另一方面GC-QTOF MS结合了气相色谱的高分离能力,极大地拓展了高分辨质谱在化合物定性分析上
的应用范围,非常适用于烟草提取物等复杂体系中目标化合物的提取与鉴定
[6-8]
。
[9-10]
随机森林(Random forest,RF)是一种基于多个决策树的集成学习方法,具有高效、鲁棒性好、
易于实现等优点,已被应用于烟草中化学成分的测量和分析,为烟草的品质评价、加工工艺优化、香
气调控等提供了新的思路和方法。该方法可利用烟草易获得的特征数据,建立烟草化学成分与特征数
据之间的非线性关系模型,实现对烟草中化学成分的快速识别。郭东锋等
[11]
使用随机森林分类算法分
析影响烤烟香型的关键因素,有效地对烤烟香型进行分类。赖燕华等
[12]
利用近红外光谱技术和随机森
林算法,建立了一种烟叶霉变快速识别模型,对不同霉变程度的复烤片烟进行了有效判别。杨睿等
[13]
利用随机森林方法对不同品种的鲜烟叶成熟度进行了判别。陈颐等
[14]
利用热裂解/气相色谱-质谱法和
随机森林方法,对加热卷烟烟叶原料的化学成分和感官评价进行了分析,建立了烟叶原料适用性的预
测模型,并筛选出影响适用性的重要化学成分。
收稿日期:2023-07-01;修回日期:2023-07-20
基金项目:湖南中烟工业有限责任公司科技项目(253)
∗ 通讯作者:邹小勇,博士,教授,研究方向:化学计量学、电分析化学,E-mail:ceszxy@
第 11 期
丁莎等:基于随机森林算法的烟草提取物类别识别模型研究
1511
本文采用GC-QTOF MS技术和RF算法,获取20种烟草提取物相关信息,对其进行了各成分分析,
获得二进制表征数据集。基于RF模型,构建了提取物、油类物质和浸膏物质3类物质,以及6个地域
产地烟草提取物的识别方法,相关研究未见报道。
1 实验部分
1.1 仪器、材料与试剂
20种烟草提取物,按种类分为8种提取物、10种油类物质、2种浸膏物质;按地域分为7种(只对6
地域产地分析),分别为2种A烟草、3种B烟草、5种C烟草、2种D烟草、3种E烟草、3种F烟草、1
种G烟草提取物和1种未知产地的油类提取物,具体如表1所示。
表1 20种烟草提取物信息
Table 1 Informations of the 20 kinds of tobacco extract
Serial
number
782
782
782
782
782
782
782
782
782
782
Oil extracts
Extracts
Oil extracts
Extracts
Oil extracts
Extracts
Oil extracts
Extracts
Oil extracts
Extracts
TypeNo.
11
12
13
14
15
16
17
18
19
20
Tobacco extracts(E)
E tobacco essential oil
E refined products
C tobacco refined products
F essential oil composite components
C essential oil composite components
F absolute oil
C tobacco absolute oil
B extractum
F extractum
NameNo.
1
2
3
4
5
6
7
8
9
10
Fluecured tobacco essential oil
Tobacco extracts(A)
A tobacco essential oil
Tobacco extracts(B)
Tobacco extracts(B)
Tobacco extracts(C)
C tobacco essential oil
Tobacco extracts(D)
D tobacco essential oil
G aromatic tobacco
Name
Serial
number
782
782
782
782
782
782
782
782
782
782
Extracts
Oil extracts
Extracts
Extracts
Oil extracts
Oil extracts
Oil extracts
Oil extracts
Extractum
Extractum
Type
1.2 实验方法
用分析天平称取0.100 0 g单一烟草提取物样品,分别加入10 mL乙酸乙酯-甲醇(体积比1∶1)有
机溶剂,振荡,超声提取15 min,用0.22 μm滤膜过滤,进样1 μL上机分析。
μm)弹性石英毛细管柱;进样口温度为280 ℃;柱初始温度为50 ℃(保持4 min),以8 ℃/min升至
180 ℃,再以20 ℃/min升至250 ℃,保持3 min,最后以30 ℃/min升至280 ℃,保持5 min;进样量为
1.0 μL;分流比5∶1;载气为He;柱前压力为22.44 kPa,流速为1.5 mL/min。
50~800 Da。
色谱条件:在气相色谱(Agilent 7890 A)分析仪上进行,色谱柱为DB-5MS(30 m × 0.25 mm × 0.25
120 ℃;锥孔气:150 L/h;辅助气:200 L/h;采集模式:MS
E
;高碰撞能量:5~30 V;采集质量范围:
质谱条件:Xevo G2-XS QTOF MS系统,采用大气压气相色谱电离源(APGC+)模式;源温度:
1.3 随机森林模型构建
值,使得整体模型结果具有高的准确度和泛化性能。该算法不仅支持大数据集,而且可应对高维特征
RF是一种属于集成学习方法的机器学习算法。它通过组合多个分类树,最终通过投票或取平均
向量。基于Matlab软件中的“TreeBagger”函数执行RF算法。按照[100∶100∶1 000]和2^[1∶1∶
样本随机平均分成2份,其中1份用作测试集,剩余1份用作训练集。重复2次,使2份中的每一份均
11],以及算法的默认参数,优化RF参数:森林中包含树的数目和每一棵树的叶节点选择参数的数目。
被作为测试集。最后,整合2次重复的结果,评估模型性能。具体步骤如下:①利用Matlab的xlsread
函数读取并装载样本对应的二进制特种向量;②将样本随机分为2等份;③根据设置的随机森林参数
和Matlab的“TreeBagger”函数,运行RF算法;④基于2-折交叉验证,采用预测精度(Accuracy)优化
模型参数,并评估模型性能;⑤基于最优的参数组合,构建RF模型;⑥根据构建的RF模型,输出识
别结果。其中Accuracy定义为:Accuracy=n
i
/N
i
,其中N
i
为第i类的样本数目,n
i
为正确识别第i类的样
本数目。
利用Xevo G2-XS QTOF MS系统,对20种烟草提取物样品进行GC-QTOF MS分析,并获取各烟草
提取物成分,构建二进制表征数据集。由于G产地只有1种,采用RF模型,只对3种类(提取物、油类
和浸膏类)和6地域产地(2种A、3种B、5种C、2种D、3种E、3种F)烟草提取物进行区分和识别。
1512
分析测试学报
第 42 卷
2 结果与讨论
2.1 成分分析及特征表征
对3种类和6地域产地的20种烟草提取物进行了成分分析,涉及1-羟基-2-丙酮、2-甲基四氢呋
喃-3-酮和法尼基丙酮等110个成分。以B产地为例(其他类同),共有烟草提取物(B)、B浸膏和烟草提
取物(B精油)3种物质,烟草提取物(B)和B浸膏含有吡啶,对应二进制向量中的元素值为1,烟草提取
物(B精油)元素值为0;B浸膏含有茄酮,元素值为1,其他2个元素值为0;烟草提取物(B精油)含有
十八酸,元素值为1,其他2个元素值为0;烟草提取物(B)、B浸膏和烟草提取物(B精油)含有乙酸甲
酯,元素值均为1;3种物质不含有乙酸异丁酯,元素值均为0。因此,构建了110 × 3维二进制向量数
据集表(如表2)。
表2 产地B烟草提取物的二进制表征表
Table 2 Binary characterization of tobacco extract from origin B
Extracts(B)
0
0
0
0
0
1
1
1
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
Component
Methyl glycolate (methanol)(羟基乙酸甲酯(甲醇))
Acetic acid(乙酸)
1-Hydroxy-2-acetone(1-羟基-2-丙酮)
Succinic acid(丁二酸)
Acetoin(乙偶姻)
Pyridine(吡啶)
Methyl acetate(乙酸甲酯)
Ethyl isobutyrate(异丁酸乙酯)
Isobutyl acetate(乙酸异丁酯)
Ethyl butyrate(丁酸乙酯)
2-Methyltetrahydrofuran-3-one(2-甲基四氢呋喃-3-酮)
3-Furaldehyde(3-糠醛)
Methyleugenol(甲基丁香酚)
Furfural(acetonitrile)(糠醛(乙腈))
2-Methylpyrazine(2-甲基吡嗪)
Furfural(糠醛)
Crotonic acid(巴豆酸)
Ethyl isovalerate(异戊酸乙酯)
α-Angelica lactone(α-当归内酯)
5-Methyl-2(5H)-furanone(5-甲基-2(5H)-呋喃酮)
(E)-4-Heptenal(顺-4-庚烯醛)
Ethyl valerate(戊酸乙酯)
2-Acetylfuran(2-乙酰基呋喃)
trans-2-Hexenal(2-己烯醛)
3-Ethylpyridine(3-乙基吡啶)
5-Methyl-2-furfuryl alcohol(5-甲基-2-呋喃甲醇)
3-Methyl-2-cyclopenten-1-one(3-甲基-2-环戊烯-1-酮)
5-Methylfurfural(5-甲基糠醛)
Benzaldehyde(苯甲醛)
6-Methyl-5-hepten-2-ol(6-甲基-5-庚烯-2-醇)
6-Methyl-5-hepten-2-one(6-甲基-5-庚烯-2-酮)
Malonic acid(丙二酸)
Ethyl hexanoate(正己酸乙酯)
2,3,5-Trimethylpyrazine(2,3,5-三甲基吡嗪)
2,4-Heptadienal(2,4-庚二烯醛)
Methyl cyclopentenolone(甲基环戊烯醇酮)
2-Acetyl-5-methylfuran(2-乙酰基-5-甲基呋喃)
D-Limonene(D-柠檬烯)
2,2,6-Trimethylcyclohexanone(2,2,6-三甲基环己酮)
3,5-Dimethyl-1,2-cyclopentanedione(3,5-二甲基-1,2-环戊二酮)
Salicylaldehyde(水杨醛)
Phenylacetaldehyde(苯乙醛)
2,6-Dimethyl-5-heptenal(甜瓜醛)
4-Hexanolide(γ-己内酯)
2-Acetylpyrrole(2-乙酰基吡咯)
2-Methylphenol(2-甲基苯酚)
B extractum
0
0
0
0
0
1
1
1
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
1
0
0
B essential oil
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
1
0
1
0
0
0
0
0
0
0
1
0
0
第 11 期
丁莎等:基于随机森林算法的烟草提取物类别识别模型研究
1513
B extractum
0
0
0
0
0
0
0
1
0
1
1
0
0
1
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
1
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
1
B essential oil
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
1
0
0
1
(续表2)
Component
Furaneol(呋喃酮(固))
Acetophenone(苯乙酮)
m-Tolualdehyde(间甲基苯甲醛)
Furan-2,5-dicarbaldehyde(2,5-二甲酰基呋喃)
2-Acetylpyrrole(2-乙酰吡咯(固))
p-Tolualdehyde(对甲基苯甲醛)
1,4-Cyclohexanedione(1,4-环己二酮)
Guaiacol(愈创木酚)
δ-Caprolactone(δ-己内酯)
Methyl benzoate(苯甲酸甲酯)
Isophorone oxide(氧化异佛尔酮)
6-Methyl-3,5-heptadien-2-one(6-甲基-3,5-庚二烯-2-酮)
3-Hydroxy-2-methyl-4H-pyran-4-one(麦芽酚(固))
Heptyl acetate(乙酸庚酯)
3-Ethyl-2-hydroxy-2-cyclopenten-1-one(乙基环戊烯醇酮)
Isophorone(methanol)(异佛尔酮(甲醇))
Isophorone(异佛尔酮)
2,6,6-Trimethyl-2-cyclohexene-1,4-dione(4-氧代异佛尔酮)
3,5,5-Trimethylcyclohexane-1,2-dione(烟酮(固))
Camphor(樟脑)
4-Heptanolide(γ-庚内酯)
(E,Z)-2,6-nonadienal(反,顺-2,6-壬二烯醛)
Menthone(薄荷酮)
trans-2-Nonenal(反式-2-壬烯醛)
Ethyl maltol(methanol)(乙基麦芽酚(甲醇))
Ethyl maltol(乙基麦芽酚(固))
Safranal(藏红花醛)
β-Citral(β-环柠檬醛)
cis-Cinnamaldehyde(肉桂醛)
5-Hydroxymethylfurfural(5-羟甲基糠醛)
L(-)-Carvone(香芹酮)
L-Perillaldehyde(紫苏醛)
β-Cyclocitral(β-环高柠檬醛)
Citral(柠檬醛)
p-Anisaldehyde(对甲氧基苯甲醛)
4-Ethyl-2-methoxyphenol(4-乙基愈创木酚)
N,2,3-Trimethyl-2-isopropylbutamide(N,2,3-三甲基-2-异丙基丁酰胺(固))
Indole(吲哚)
2-Methoxy-4-vinylphenol (2-甲氧基-4-乙烯基苯酚)
Eugenol(丁香酚)
β-Damascone(β-大马酮)
4'-Methoxyacetophenone(对甲氧基苯乙酮(固))
Solanone(茄酮)
Cinnamic acid(二氢香豆素)
Methyl eugenol(丁香酚甲醚)
Vanillin(香兰素(固))
Pentaric acid(异柠檬酸)
β-Damascone(β-突厥酮)
6,10-Dimethyl-5,9-undecadien-2-one(香叶基丙酮)
Vanillylacetone(姜酮)
α-Ionone(α-紫罗兰酮)
Ethyl vanillin(乙基香兰素)
β-Ionone(β-紫罗兰酮)
Vanillin(香兰素)
β-Nicotyrine(β-二烯烟碱)
6-Cyclohexyl-4-methyl-2H-pyran-2-one(4-甲基-6-环已基-2-吡喃酮)
Dihydroactinidiolide(二氢猕猴桃内酯)
Tabanone(巨豆三烯酮;烟叶酮)
Nonanal(壬醛)
Methyl dihydrojasmonate(二氢茉莉酮酸甲酯)
Extracts(B)
0
0
0
0
0
0
0
1
0
1
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
1
1514
分析测试学报
第 42 卷
(续表2)
Component
Nootkatone(圆柚酮;(+)-香柏酮)
7,11,15-Trimethyl-3-methylidene-hexadec-1-ene(新植二烯)
(5E,9E)-6,10,14-Trimethylpentadeca-5,9,13-trien-2-one(法尼基丙酮)
Stearic acid(十八酸)
Extracts(B)
0
0
1
0
B extractum
0
0
1
0
B essential oil
0
0
1
1
2.2 RF三类模式识别
将20种烟草提取物按照8种提取物、10种油类和2种浸膏划分为3类。8种提取物标记为“1”,10
种油类和2种浸膏分别标记为“2”和“3”,构建RF模型对香烟提取物进行三类模式识别研究。
110 ×2。采用构建的数据集,基于Matlab数学建模软件中的“TreeBagger”命令进行判别分析。采用2-
折交叉验证方法评估模型的预测精度,并优化参数。
构建了8种提取物、10种油类和2种浸膏二进制向量数据集,维数分别为:110 × 8、110 ×10、
表5。由图2可以看出,建立的RF模型100%准确识别8种提取物、10种油类和2种浸膏。由表3可以
看出,无论森林中树的数目和每个节点选择的特征数目如何改变,构建的模型始终能够正确识别8种
RF参数(树的数目和选择特征的数目)优化结果如图1所示,混淆矩阵如图2所示,结果列于表3~
提取物。对于10种油类物质,当树的数目为100,且选择的特征数目为2时,预测精度较低,但仍达
到90%的正确识别率。对于2种浸膏,由于样本数目较少,只有当森林中树的数目较大,且选择的特
征数目大于4时,构建的模型才能准确识别。结果表明,基于识别的特征成分,选择优化参数,RF模
型能够有效识别20种烟草提取物中8种提取物、10种油类和2种浸膏。
图1 RF模型参数优化对8种烟草提取物(A)、10种油类提取物(B)和2种浸膏提取物(C)的预测结果
Fig.1 Optimization of RF model parameters for prediction results of 8 tobacco extracts(A),
10 oil extracts(B) and
2 extractums(C)
2.3 RF六类模型
将20种烟草提取物按照产地A、B、C、D、E
和F分别标记为“1”、“2”、“3”、“4”、“5”和
“6”。构建RF模型对烟草提取物进行六类模式识
别研究。
2种D、3种E、3种F)二进制向量数据集,维数分
构建的6个地域产地(2种A、3种B、5种C、
别为:A:110×2、B:110×3、C:110×5、D:
110×2、E:110×3、F:110×3。采用构建的数据
集,基于Matlab数学建模软件中的“TreeBagger”
命令进行判别分析。采用2-折交叉验证方法评估
模型的预测精度,并优化参数。
采用RF算法构建模型开展识别研究,预测结
果示意图和混淆矩阵如图3所示。在图3A中,每
图2 RF模型混淆矩阵
Fig.2 Confusion matrix of RF model
the vertical axis represents the actual category,while the horizontal ax⁃
is means the predicted category
个点表示样本在三维空间中的分布,点的颜色与三维坐标数值相关,即坐标值越大颜色越浅。结果表
明,RF构建的模型能够准确识别6种烟草在高维空间的分布边界;图3B纵坐标A、B、C、D、E和F
第 11 期
丁莎等:基于随机森林算法的烟草提取物类别识别模型研究
1515
分别表示样本的真实类别,横坐标表示样本的预测类别,方格中的数字表示样本数目,颜色与样本数
目大小相关,即样本数目越多颜色越深。结果表明,每一类样本均被构建的RF模型准确识别,模型能
够100%识别每一地域产地的烟草。因此,RF模型准确识别了2种A烟草、3种B烟草、5种C烟草、2
种D烟草、3种E烟草、3种F烟草。
表3 RF模型参数对8种烟草提取物的识别结果
Table 3 Recognition results of 8 tobacco extracts using RF model from different parameter combination
2
1
2
2
Number of tree in forest
Accuracy/%
3
22
4
100
100
100
100
100
100
100
100
100
100
2
5
3
2
100
Number of selected feature
200
300
400
500
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
表4 RF模型参数对10种油类提取物的识别结果
Table 4 Recognition results of 10 oil extracts using RF model from different parameter combination
2
1
90
100
100
100
100
2
2
100
100
100
100
100
Number of tree in forest
Accuracy/%
3
22
4
100100
100100
100100
100100
100100
2
5
100
100
100
100
100
3
2
100
100
100
100
100
Number of selected feature
100
200
300
400
500
表5 RF模型参数对2种浸膏提取物的识别结果
Table 5 Recognition results of 2 extractum using RF model from different parameter combination
2
1
90
100
100
100
100
2
2
100
100
100
100
100
Number of tree in forest
Accuracy/%
3
22
4
100100
100100
100100
100100
100100
2
5
100
100
100
100
100
3
2
100
100
100
100
100
Number of selected feature
100
200
300
400
500
图3 随机森林最优模型对6种烟草提取物的预测结果示意图(A)与混淆矩阵(B)
Fig.3 Schematic diagram(A) and confusion matrix(B) of prediction results of six types of tobacco extracts
based on RF optimized model
1516
分析测试学报
第 42 卷
3 结 论
本文以不同产地的20种烟草提取物为研究对象,采用GC-QTOF MS作为样本的高分辨表征手段,
对同类不同来源的烟草提取物进行深入的成分剖析及其关键成分的定量研究等,有望获得它们更多的
化学信息。研究结果可为烟草提取物的质量标准制定奠定基础,也为同类不同来源的天然香原料(包
括烟草提取物)品控和分析提供科学依据,并为功能性香基模块中天然香原料的溯源可行性提供理论依
据。
参考文献:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Lü Q,Zhang Q,Bai H,Li H Y,Kang S Y,Wang C. Chin. J. Chromatogr. (吕庆,张庆,白桦,李海玉,康苏媛,
王超. 色谱),2012,30(5):480-486.
Lü Q,Zhang Q,Bai H,Li H Y,Kang S Y,Wang C. Chin. J. Anal. Lab. (吕庆,张庆,白桦,李海玉,康苏媛,
王超. 分析试验室),2012,31(4):45-49.
Ma Z L,Zhao W,Li L Y,Zheng S N,Lin H,Zhang Y G,Gao Q Z,Liu S. Chin. J. Chromatogr. (马智玲,赵文,
李凌云,郑姝宁,林桓,张延国,高青珍,刘肃. 色谱),2013,31(3):228-239.
Yoshida M,Hatano N,Nishiumi S,Irino Y,Izumi Y,Takenawa T,Azuma T. J. Gastroenterol.,2012,47(1):
9-20.
Portolés T,Mol J G J,Sancho J V,Hernández F. J. Chromatogr. A,2014,1339:145-53.
Fan R J,Zhang F,Guo Y L. J. Instrum. Anal. (范若静,张芳,郭寅龙. 分析测试学报),2012,31(9):1051-
1057.
Wang W W,Yu C T. Environ. Chem. (王雯雯,余翀天. 环境化学),2012,31(10):1660-1662.
Liu X D,Li L,Chi Y,Zhang Z J. J. Chin. Mass Spectrom. Soc. (刘咸德,李莉,池逸,张志杰. 质谱学报),2016,
37(1):10-16.
Breiman L. Mach. Learn.,2001,45(1):5-32.
Liaw A,Wiener M. R News,2002,2(3):18-22.
Guo D F,Hu H Z,Wang J T,Yao Z D,Yang H,Xu W,Liu X M. Chin. Agric. Sci. Bull. (郭东锋,胡海洲,汪季
涛,姚忠达,杨辉,徐玮,刘新民. 中国农学通报),2015,31(6):241-246.
Lai Y H,Lin Y,Tao H,Wang Y. Acta Tabac. Sin. (赖燕华,林云,陶红,王予. 中国烟草学报),2020,26(2):
36-43.
Yang R,Bin J,Su J E,Wang H G,Wang W L,He C G,Chen Y,Zou C M. J. Hunan Agric. Univ.:Nat. Sci. (杨睿,
宾俊,苏家恩,汪华国,王文伦,何承刚,陈颐,邹聪明. 湖南农业大学学报:自然科学版),2021,47(4):
406-411.
Chen Y,Fan Y J,Wang X,Yang J,Zhao W T,Zhang Z M. Phys. Test. Chem. Anal.:Chem. Anal. (陈颐,范迎杰,
汪旭,杨菁,赵文涛,张志敏. 理化检验-化学分册),2023,59(1):21-28.
[14]
(责任编辑:丁岩)
2024年10月27日发(作者:邰英)
第42 卷 第 11 期
2023 年11 月
分析测试学报
FENXI CESHI XUEBAO(Journal of Instrumental Analysis)
Vol.42 No.11
1510~1516
doi:10.19969/.23070102
基于随机森林算法的烟草提取物类别识别模型研究
丁
摘
莎,申涛榕,张艳飞,杜欢哲,吴
1221
榆,邹小勇
12*
(1.湖南中烟工业有限责任公司技术中心,湖南 长沙 410007;2.中山大学 化学学院,广东 广州 510006)
要:采用气相色谱-四极杆飞行时间质谱(GC-QTOF MS)获取20种烟草提取物的色谱数据,对其进行各
成分分析,构建二进制向量数据集。通过随机森林模型,优化了实验条件,对烟草提取物中提取物、油类物
质和浸膏物质3类物质,以及A、B、C、D、E和F 6个地域产地烟草提取物进行了识别,所建模型可以100%
识别烟草提取物类型和地域。
关键词:GC-QTOF MS;随机森林;烟草提取物;种类;地域;识别
中图分类号:O657.63;TB99 文献标识码:A 文章编号:1004-4957(2023)11-1510-07
Study on Classification Model for Tobacco Extracts Based on
Random Forest Algorithm
(1.Technology Center,China Tobacco Hunan Industrial Co.,Ltd.,Changsha 410007,China;2.School of
Chemistry,Sun Yat-sen University,Guangzhou 510006,China)
DING Sha
1
,SHEN Tao-rong
2
,ZHANG Yan-fei
2
,DU Huan-zhe
1
,WU Yu
1
,ZOU Xiao-yong
2*
Abstract:In this study,gas chromatography-quadrupole time-of-flight mass spectrometry(GC-
QTOF MS) was used to obtain chromatographic data of 20 types of tobacco extracts,which were then
subjected to component analysis. A binary vector datasets were constructed for the purpose of classifi⁃
cation. By employing the random forest model and optimizing experimental conditions,the identifica⁃
tion of three categories of substances(extract,essential oil,and extractum) in tobacco extracts,as
well as distinguishing tobacco extracts from six different geographical origins(A,B,C,D,E,and
F),was achieved with recognition accuracy of 100%.
Key words:GC-QTOF MS;random forest;tobacco extracts;category;geographicol origin;
identification
目前烟草行业使用的同类不同来源的烟草提取物包括不同产地、不同生产工艺的提取物、精油、
浸膏、净油、精制物等,常用的分析检测手段为气相色谱-质谱联用技术,包括气相色谱-四极杆质谱
[1][2-3]
(GC-Q MS)、气相色谱-四极杆飞行时间质谱(GC-QTOF MS)、气相色谱-离子阱质谱(GC-IT MS)
[4-5]
和气相色谱-三重四极杆串联质谱(GC-QQQ MS)等。其中GC-QTOF MS的优势在于:一方面高分辨
飞行时间质谱具有分辨率高、扫描速度快等优势,可通过与其他质谱串联实现多级质谱分析的要求;
另一方面GC-QTOF MS结合了气相色谱的高分离能力,极大地拓展了高分辨质谱在化合物定性分析上
的应用范围,非常适用于烟草提取物等复杂体系中目标化合物的提取与鉴定
[6-8]
。
[9-10]
随机森林(Random forest,RF)是一种基于多个决策树的集成学习方法,具有高效、鲁棒性好、
易于实现等优点,已被应用于烟草中化学成分的测量和分析,为烟草的品质评价、加工工艺优化、香
气调控等提供了新的思路和方法。该方法可利用烟草易获得的特征数据,建立烟草化学成分与特征数
据之间的非线性关系模型,实现对烟草中化学成分的快速识别。郭东锋等
[11]
使用随机森林分类算法分
析影响烤烟香型的关键因素,有效地对烤烟香型进行分类。赖燕华等
[12]
利用近红外光谱技术和随机森
林算法,建立了一种烟叶霉变快速识别模型,对不同霉变程度的复烤片烟进行了有效判别。杨睿等
[13]
利用随机森林方法对不同品种的鲜烟叶成熟度进行了判别。陈颐等
[14]
利用热裂解/气相色谱-质谱法和
随机森林方法,对加热卷烟烟叶原料的化学成分和感官评价进行了分析,建立了烟叶原料适用性的预
测模型,并筛选出影响适用性的重要化学成分。
收稿日期:2023-07-01;修回日期:2023-07-20
基金项目:湖南中烟工业有限责任公司科技项目(253)
∗ 通讯作者:邹小勇,博士,教授,研究方向:化学计量学、电分析化学,E-mail:ceszxy@
第 11 期
丁莎等:基于随机森林算法的烟草提取物类别识别模型研究
1511
本文采用GC-QTOF MS技术和RF算法,获取20种烟草提取物相关信息,对其进行了各成分分析,
获得二进制表征数据集。基于RF模型,构建了提取物、油类物质和浸膏物质3类物质,以及6个地域
产地烟草提取物的识别方法,相关研究未见报道。
1 实验部分
1.1 仪器、材料与试剂
20种烟草提取物,按种类分为8种提取物、10种油类物质、2种浸膏物质;按地域分为7种(只对6
地域产地分析),分别为2种A烟草、3种B烟草、5种C烟草、2种D烟草、3种E烟草、3种F烟草、1
种G烟草提取物和1种未知产地的油类提取物,具体如表1所示。
表1 20种烟草提取物信息
Table 1 Informations of the 20 kinds of tobacco extract
Serial
number
782
782
782
782
782
782
782
782
782
782
Oil extracts
Extracts
Oil extracts
Extracts
Oil extracts
Extracts
Oil extracts
Extracts
Oil extracts
Extracts
TypeNo.
11
12
13
14
15
16
17
18
19
20
Tobacco extracts(E)
E tobacco essential oil
E refined products
C tobacco refined products
F essential oil composite components
C essential oil composite components
F absolute oil
C tobacco absolute oil
B extractum
F extractum
NameNo.
1
2
3
4
5
6
7
8
9
10
Fluecured tobacco essential oil
Tobacco extracts(A)
A tobacco essential oil
Tobacco extracts(B)
Tobacco extracts(B)
Tobacco extracts(C)
C tobacco essential oil
Tobacco extracts(D)
D tobacco essential oil
G aromatic tobacco
Name
Serial
number
782
782
782
782
782
782
782
782
782
782
Extracts
Oil extracts
Extracts
Extracts
Oil extracts
Oil extracts
Oil extracts
Oil extracts
Extractum
Extractum
Type
1.2 实验方法
用分析天平称取0.100 0 g单一烟草提取物样品,分别加入10 mL乙酸乙酯-甲醇(体积比1∶1)有
机溶剂,振荡,超声提取15 min,用0.22 μm滤膜过滤,进样1 μL上机分析。
μm)弹性石英毛细管柱;进样口温度为280 ℃;柱初始温度为50 ℃(保持4 min),以8 ℃/min升至
180 ℃,再以20 ℃/min升至250 ℃,保持3 min,最后以30 ℃/min升至280 ℃,保持5 min;进样量为
1.0 μL;分流比5∶1;载气为He;柱前压力为22.44 kPa,流速为1.5 mL/min。
50~800 Da。
色谱条件:在气相色谱(Agilent 7890 A)分析仪上进行,色谱柱为DB-5MS(30 m × 0.25 mm × 0.25
120 ℃;锥孔气:150 L/h;辅助气:200 L/h;采集模式:MS
E
;高碰撞能量:5~30 V;采集质量范围:
质谱条件:Xevo G2-XS QTOF MS系统,采用大气压气相色谱电离源(APGC+)模式;源温度:
1.3 随机森林模型构建
值,使得整体模型结果具有高的准确度和泛化性能。该算法不仅支持大数据集,而且可应对高维特征
RF是一种属于集成学习方法的机器学习算法。它通过组合多个分类树,最终通过投票或取平均
向量。基于Matlab软件中的“TreeBagger”函数执行RF算法。按照[100∶100∶1 000]和2^[1∶1∶
样本随机平均分成2份,其中1份用作测试集,剩余1份用作训练集。重复2次,使2份中的每一份均
11],以及算法的默认参数,优化RF参数:森林中包含树的数目和每一棵树的叶节点选择参数的数目。
被作为测试集。最后,整合2次重复的结果,评估模型性能。具体步骤如下:①利用Matlab的xlsread
函数读取并装载样本对应的二进制特种向量;②将样本随机分为2等份;③根据设置的随机森林参数
和Matlab的“TreeBagger”函数,运行RF算法;④基于2-折交叉验证,采用预测精度(Accuracy)优化
模型参数,并评估模型性能;⑤基于最优的参数组合,构建RF模型;⑥根据构建的RF模型,输出识
别结果。其中Accuracy定义为:Accuracy=n
i
/N
i
,其中N
i
为第i类的样本数目,n
i
为正确识别第i类的样
本数目。
利用Xevo G2-XS QTOF MS系统,对20种烟草提取物样品进行GC-QTOF MS分析,并获取各烟草
提取物成分,构建二进制表征数据集。由于G产地只有1种,采用RF模型,只对3种类(提取物、油类
和浸膏类)和6地域产地(2种A、3种B、5种C、2种D、3种E、3种F)烟草提取物进行区分和识别。
1512
分析测试学报
第 42 卷
2 结果与讨论
2.1 成分分析及特征表征
对3种类和6地域产地的20种烟草提取物进行了成分分析,涉及1-羟基-2-丙酮、2-甲基四氢呋
喃-3-酮和法尼基丙酮等110个成分。以B产地为例(其他类同),共有烟草提取物(B)、B浸膏和烟草提
取物(B精油)3种物质,烟草提取物(B)和B浸膏含有吡啶,对应二进制向量中的元素值为1,烟草提取
物(B精油)元素值为0;B浸膏含有茄酮,元素值为1,其他2个元素值为0;烟草提取物(B精油)含有
十八酸,元素值为1,其他2个元素值为0;烟草提取物(B)、B浸膏和烟草提取物(B精油)含有乙酸甲
酯,元素值均为1;3种物质不含有乙酸异丁酯,元素值均为0。因此,构建了110 × 3维二进制向量数
据集表(如表2)。
表2 产地B烟草提取物的二进制表征表
Table 2 Binary characterization of tobacco extract from origin B
Extracts(B)
0
0
0
0
0
1
1
1
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
Component
Methyl glycolate (methanol)(羟基乙酸甲酯(甲醇))
Acetic acid(乙酸)
1-Hydroxy-2-acetone(1-羟基-2-丙酮)
Succinic acid(丁二酸)
Acetoin(乙偶姻)
Pyridine(吡啶)
Methyl acetate(乙酸甲酯)
Ethyl isobutyrate(异丁酸乙酯)
Isobutyl acetate(乙酸异丁酯)
Ethyl butyrate(丁酸乙酯)
2-Methyltetrahydrofuran-3-one(2-甲基四氢呋喃-3-酮)
3-Furaldehyde(3-糠醛)
Methyleugenol(甲基丁香酚)
Furfural(acetonitrile)(糠醛(乙腈))
2-Methylpyrazine(2-甲基吡嗪)
Furfural(糠醛)
Crotonic acid(巴豆酸)
Ethyl isovalerate(异戊酸乙酯)
α-Angelica lactone(α-当归内酯)
5-Methyl-2(5H)-furanone(5-甲基-2(5H)-呋喃酮)
(E)-4-Heptenal(顺-4-庚烯醛)
Ethyl valerate(戊酸乙酯)
2-Acetylfuran(2-乙酰基呋喃)
trans-2-Hexenal(2-己烯醛)
3-Ethylpyridine(3-乙基吡啶)
5-Methyl-2-furfuryl alcohol(5-甲基-2-呋喃甲醇)
3-Methyl-2-cyclopenten-1-one(3-甲基-2-环戊烯-1-酮)
5-Methylfurfural(5-甲基糠醛)
Benzaldehyde(苯甲醛)
6-Methyl-5-hepten-2-ol(6-甲基-5-庚烯-2-醇)
6-Methyl-5-hepten-2-one(6-甲基-5-庚烯-2-酮)
Malonic acid(丙二酸)
Ethyl hexanoate(正己酸乙酯)
2,3,5-Trimethylpyrazine(2,3,5-三甲基吡嗪)
2,4-Heptadienal(2,4-庚二烯醛)
Methyl cyclopentenolone(甲基环戊烯醇酮)
2-Acetyl-5-methylfuran(2-乙酰基-5-甲基呋喃)
D-Limonene(D-柠檬烯)
2,2,6-Trimethylcyclohexanone(2,2,6-三甲基环己酮)
3,5-Dimethyl-1,2-cyclopentanedione(3,5-二甲基-1,2-环戊二酮)
Salicylaldehyde(水杨醛)
Phenylacetaldehyde(苯乙醛)
2,6-Dimethyl-5-heptenal(甜瓜醛)
4-Hexanolide(γ-己内酯)
2-Acetylpyrrole(2-乙酰基吡咯)
2-Methylphenol(2-甲基苯酚)
B extractum
0
0
0
0
0
1
1
1
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
1
0
0
B essential oil
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
1
0
1
0
0
0
0
0
0
0
1
0
0
第 11 期
丁莎等:基于随机森林算法的烟草提取物类别识别模型研究
1513
B extractum
0
0
0
0
0
0
0
1
0
1
1
0
0
1
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
1
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
1
B essential oil
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
1
0
0
1
(续表2)
Component
Furaneol(呋喃酮(固))
Acetophenone(苯乙酮)
m-Tolualdehyde(间甲基苯甲醛)
Furan-2,5-dicarbaldehyde(2,5-二甲酰基呋喃)
2-Acetylpyrrole(2-乙酰吡咯(固))
p-Tolualdehyde(对甲基苯甲醛)
1,4-Cyclohexanedione(1,4-环己二酮)
Guaiacol(愈创木酚)
δ-Caprolactone(δ-己内酯)
Methyl benzoate(苯甲酸甲酯)
Isophorone oxide(氧化异佛尔酮)
6-Methyl-3,5-heptadien-2-one(6-甲基-3,5-庚二烯-2-酮)
3-Hydroxy-2-methyl-4H-pyran-4-one(麦芽酚(固))
Heptyl acetate(乙酸庚酯)
3-Ethyl-2-hydroxy-2-cyclopenten-1-one(乙基环戊烯醇酮)
Isophorone(methanol)(异佛尔酮(甲醇))
Isophorone(异佛尔酮)
2,6,6-Trimethyl-2-cyclohexene-1,4-dione(4-氧代异佛尔酮)
3,5,5-Trimethylcyclohexane-1,2-dione(烟酮(固))
Camphor(樟脑)
4-Heptanolide(γ-庚内酯)
(E,Z)-2,6-nonadienal(反,顺-2,6-壬二烯醛)
Menthone(薄荷酮)
trans-2-Nonenal(反式-2-壬烯醛)
Ethyl maltol(methanol)(乙基麦芽酚(甲醇))
Ethyl maltol(乙基麦芽酚(固))
Safranal(藏红花醛)
β-Citral(β-环柠檬醛)
cis-Cinnamaldehyde(肉桂醛)
5-Hydroxymethylfurfural(5-羟甲基糠醛)
L(-)-Carvone(香芹酮)
L-Perillaldehyde(紫苏醛)
β-Cyclocitral(β-环高柠檬醛)
Citral(柠檬醛)
p-Anisaldehyde(对甲氧基苯甲醛)
4-Ethyl-2-methoxyphenol(4-乙基愈创木酚)
N,2,3-Trimethyl-2-isopropylbutamide(N,2,3-三甲基-2-异丙基丁酰胺(固))
Indole(吲哚)
2-Methoxy-4-vinylphenol (2-甲氧基-4-乙烯基苯酚)
Eugenol(丁香酚)
β-Damascone(β-大马酮)
4'-Methoxyacetophenone(对甲氧基苯乙酮(固))
Solanone(茄酮)
Cinnamic acid(二氢香豆素)
Methyl eugenol(丁香酚甲醚)
Vanillin(香兰素(固))
Pentaric acid(异柠檬酸)
β-Damascone(β-突厥酮)
6,10-Dimethyl-5,9-undecadien-2-one(香叶基丙酮)
Vanillylacetone(姜酮)
α-Ionone(α-紫罗兰酮)
Ethyl vanillin(乙基香兰素)
β-Ionone(β-紫罗兰酮)
Vanillin(香兰素)
β-Nicotyrine(β-二烯烟碱)
6-Cyclohexyl-4-methyl-2H-pyran-2-one(4-甲基-6-环已基-2-吡喃酮)
Dihydroactinidiolide(二氢猕猴桃内酯)
Tabanone(巨豆三烯酮;烟叶酮)
Nonanal(壬醛)
Methyl dihydrojasmonate(二氢茉莉酮酸甲酯)
Extracts(B)
0
0
0
0
0
0
0
1
0
1
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
1
1514
分析测试学报
第 42 卷
(续表2)
Component
Nootkatone(圆柚酮;(+)-香柏酮)
7,11,15-Trimethyl-3-methylidene-hexadec-1-ene(新植二烯)
(5E,9E)-6,10,14-Trimethylpentadeca-5,9,13-trien-2-one(法尼基丙酮)
Stearic acid(十八酸)
Extracts(B)
0
0
1
0
B extractum
0
0
1
0
B essential oil
0
0
1
1
2.2 RF三类模式识别
将20种烟草提取物按照8种提取物、10种油类和2种浸膏划分为3类。8种提取物标记为“1”,10
种油类和2种浸膏分别标记为“2”和“3”,构建RF模型对香烟提取物进行三类模式识别研究。
110 ×2。采用构建的数据集,基于Matlab数学建模软件中的“TreeBagger”命令进行判别分析。采用2-
折交叉验证方法评估模型的预测精度,并优化参数。
构建了8种提取物、10种油类和2种浸膏二进制向量数据集,维数分别为:110 × 8、110 ×10、
表5。由图2可以看出,建立的RF模型100%准确识别8种提取物、10种油类和2种浸膏。由表3可以
看出,无论森林中树的数目和每个节点选择的特征数目如何改变,构建的模型始终能够正确识别8种
RF参数(树的数目和选择特征的数目)优化结果如图1所示,混淆矩阵如图2所示,结果列于表3~
提取物。对于10种油类物质,当树的数目为100,且选择的特征数目为2时,预测精度较低,但仍达
到90%的正确识别率。对于2种浸膏,由于样本数目较少,只有当森林中树的数目较大,且选择的特
征数目大于4时,构建的模型才能准确识别。结果表明,基于识别的特征成分,选择优化参数,RF模
型能够有效识别20种烟草提取物中8种提取物、10种油类和2种浸膏。
图1 RF模型参数优化对8种烟草提取物(A)、10种油类提取物(B)和2种浸膏提取物(C)的预测结果
Fig.1 Optimization of RF model parameters for prediction results of 8 tobacco extracts(A),
10 oil extracts(B) and
2 extractums(C)
2.3 RF六类模型
将20种烟草提取物按照产地A、B、C、D、E
和F分别标记为“1”、“2”、“3”、“4”、“5”和
“6”。构建RF模型对烟草提取物进行六类模式识
别研究。
2种D、3种E、3种F)二进制向量数据集,维数分
构建的6个地域产地(2种A、3种B、5种C、
别为:A:110×2、B:110×3、C:110×5、D:
110×2、E:110×3、F:110×3。采用构建的数据
集,基于Matlab数学建模软件中的“TreeBagger”
命令进行判别分析。采用2-折交叉验证方法评估
模型的预测精度,并优化参数。
采用RF算法构建模型开展识别研究,预测结
果示意图和混淆矩阵如图3所示。在图3A中,每
图2 RF模型混淆矩阵
Fig.2 Confusion matrix of RF model
the vertical axis represents the actual category,while the horizontal ax⁃
is means the predicted category
个点表示样本在三维空间中的分布,点的颜色与三维坐标数值相关,即坐标值越大颜色越浅。结果表
明,RF构建的模型能够准确识别6种烟草在高维空间的分布边界;图3B纵坐标A、B、C、D、E和F
第 11 期
丁莎等:基于随机森林算法的烟草提取物类别识别模型研究
1515
分别表示样本的真实类别,横坐标表示样本的预测类别,方格中的数字表示样本数目,颜色与样本数
目大小相关,即样本数目越多颜色越深。结果表明,每一类样本均被构建的RF模型准确识别,模型能
够100%识别每一地域产地的烟草。因此,RF模型准确识别了2种A烟草、3种B烟草、5种C烟草、2
种D烟草、3种E烟草、3种F烟草。
表3 RF模型参数对8种烟草提取物的识别结果
Table 3 Recognition results of 8 tobacco extracts using RF model from different parameter combination
2
1
2
2
Number of tree in forest
Accuracy/%
3
22
4
100
100
100
100
100
100
100
100
100
100
2
5
3
2
100
Number of selected feature
200
300
400
500
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
表4 RF模型参数对10种油类提取物的识别结果
Table 4 Recognition results of 10 oil extracts using RF model from different parameter combination
2
1
90
100
100
100
100
2
2
100
100
100
100
100
Number of tree in forest
Accuracy/%
3
22
4
100100
100100
100100
100100
100100
2
5
100
100
100
100
100
3
2
100
100
100
100
100
Number of selected feature
100
200
300
400
500
表5 RF模型参数对2种浸膏提取物的识别结果
Table 5 Recognition results of 2 extractum using RF model from different parameter combination
2
1
90
100
100
100
100
2
2
100
100
100
100
100
Number of tree in forest
Accuracy/%
3
22
4
100100
100100
100100
100100
100100
2
5
100
100
100
100
100
3
2
100
100
100
100
100
Number of selected feature
100
200
300
400
500
图3 随机森林最优模型对6种烟草提取物的预测结果示意图(A)与混淆矩阵(B)
Fig.3 Schematic diagram(A) and confusion matrix(B) of prediction results of six types of tobacco extracts
based on RF optimized model
1516
分析测试学报
第 42 卷
3 结 论
本文以不同产地的20种烟草提取物为研究对象,采用GC-QTOF MS作为样本的高分辨表征手段,
对同类不同来源的烟草提取物进行深入的成分剖析及其关键成分的定量研究等,有望获得它们更多的
化学信息。研究结果可为烟草提取物的质量标准制定奠定基础,也为同类不同来源的天然香原料(包
括烟草提取物)品控和分析提供科学依据,并为功能性香基模块中天然香原料的溯源可行性提供理论依
据。
参考文献:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Lü Q,Zhang Q,Bai H,Li H Y,Kang S Y,Wang C. Chin. J. Chromatogr. (吕庆,张庆,白桦,李海玉,康苏媛,
王超. 色谱),2012,30(5):480-486.
Lü Q,Zhang Q,Bai H,Li H Y,Kang S Y,Wang C. Chin. J. Anal. Lab. (吕庆,张庆,白桦,李海玉,康苏媛,
王超. 分析试验室),2012,31(4):45-49.
Ma Z L,Zhao W,Li L Y,Zheng S N,Lin H,Zhang Y G,Gao Q Z,Liu S. Chin. J. Chromatogr. (马智玲,赵文,
李凌云,郑姝宁,林桓,张延国,高青珍,刘肃. 色谱),2013,31(3):228-239.
Yoshida M,Hatano N,Nishiumi S,Irino Y,Izumi Y,Takenawa T,Azuma T. J. Gastroenterol.,2012,47(1):
9-20.
Portolés T,Mol J G J,Sancho J V,Hernández F. J. Chromatogr. A,2014,1339:145-53.
Fan R J,Zhang F,Guo Y L. J. Instrum. Anal. (范若静,张芳,郭寅龙. 分析测试学报),2012,31(9):1051-
1057.
Wang W W,Yu C T. Environ. Chem. (王雯雯,余翀天. 环境化学),2012,31(10):1660-1662.
Liu X D,Li L,Chi Y,Zhang Z J. J. Chin. Mass Spectrom. Soc. (刘咸德,李莉,池逸,张志杰. 质谱学报),2016,
37(1):10-16.
Breiman L. Mach. Learn.,2001,45(1):5-32.
Liaw A,Wiener M. R News,2002,2(3):18-22.
Guo D F,Hu H Z,Wang J T,Yao Z D,Yang H,Xu W,Liu X M. Chin. Agric. Sci. Bull. (郭东锋,胡海洲,汪季
涛,姚忠达,杨辉,徐玮,刘新民. 中国农学通报),2015,31(6):241-246.
Lai Y H,Lin Y,Tao H,Wang Y. Acta Tabac. Sin. (赖燕华,林云,陶红,王予. 中国烟草学报),2020,26(2):
36-43.
Yang R,Bin J,Su J E,Wang H G,Wang W L,He C G,Chen Y,Zou C M. J. Hunan Agric. Univ.:Nat. Sci. (杨睿,
宾俊,苏家恩,汪华国,王文伦,何承刚,陈颐,邹聪明. 湖南农业大学学报:自然科学版),2021,47(4):
406-411.
Chen Y,Fan Y J,Wang X,Yang J,Zhao W T,Zhang Z M. Phys. Test. Chem. Anal.:Chem. Anal. (陈颐,范迎杰,
汪旭,杨菁,赵文涛,张志敏. 理化检验-化学分册),2023,59(1):21-28.
[14]
(责任编辑:丁岩)