一种基于卷烟配方需求的烟叶原料功效定位方法与流程
本发明涉及烟叶原料的分类技术领域,尤其涉及一种基于卷烟配方需求的烟叶原料功效定位方法。
背景技术:
目前市面上存在大量卷烟制品,不同品牌的卷烟之间、同一品牌的不同细支品类之间,均有着不同的配方,以实现不同的功效,从而给人们带来不同的抽吸体验。不同的卷烟功效是通过多品种、多等级、配比的方式将不同品质和风格的烟叶原料进行配方应用来塑造得到的。传统配方技术主要是靠配方技术员主观经验评判得到,面对大量不同品种、等级的烟叶原料,存在原料筛选困难、受主观影响大的问题,难以准确定位烟叶原料所适用的卷烟功效,从而造成卷烟制品品质不均的问题。
因此,如何根据卷烟制品的功效、对烟叶原料进行科学合理的分类定位,使其能够准确地用于相应的卷烟制品的制作中,成为亟需解决的问题。
公开号为cn104323416a的专利文件公开了这样一种烤烟烟叶配方功能判别及分类应用方法,其在配方解析的基础上,将烤烟烟叶功能归纳为骨架型、香味型及质感型功能烟叶;并通过对烤烟烟叶原料感官的评价指标包括性、愉悦丰富性、透发性、香气量、细腻度、甜度、绵延性、成团性、柔和性、浓度、杂气、刺激、余味及劲头14项感官指标进行评定量化;然后对上述指标进行划分、归类,形成骨架型、香味型、质感型烤烟烟叶配方功能评价的功能参数及品质参数模型,根据参数值对相应的烤烟烟叶进行功能判别,并以参数值划分相应功能的主料烟叶及次主料烟叶。该申请中的方法仅将烟叶原料分为三类,不适用于多种类卷烟品牌对烟叶原料的分类需求。同时,该申请仅通过感官指标及其相应权重进行建模,人为主观因素影响较大,使得得到的模型精确度不高,难以推广应用。
技术实现要素:
本发明要解决上述问题,提供一种适用范围广、预测烟叶原料的使用方向的准确度高的基于卷烟配方需求的烟叶原料功效定位方法。
本发明解决问题的技术方案是,提供一种基于卷烟配方需求的烟叶原料功效定位方法,包括以下步骤:
(1)功效定位模型的构建:a.根据不同卷烟配方的功效定位,确定若干组类别;b.为每组类别选取具有代表性的烟叶原料样本;c.选取感官质量和常规化学成分中的连续变量作为所述烟叶原料样本的特征(特征,即为影响烟叶原料样本所属类别的影响因子);d.以所述特征的数据和类别的数据作为烟草原料样本的样本数据,应用python软件,采用支持向量机、选用核函数对所述样本数据进行训练以得到预测模型;
(2)待测烟叶原料的功效定位:将待测烟叶原料的特征数据带入所述预测模型中,得到其相应的类别,完成待测烟叶原料的功效定位。
本申请的模型建立完毕后,在使用时,仅需要检测待测烟叶原料的特征数据,将其带入模型程序中,即可推算得到该烟叶原料所适用的类别,即可明确该烟叶原料可作为哪一种卷烟品牌的原料,然后将其直接用于该卷烟品牌的生产工艺线上即可。因此,本申请实际上也是在提供一种高效的卷烟生产方法,卷烟的生产从宏观上看包括两个步骤,一是烟草原料的选取,二是将烟草原料制成成品烟。本申请从烟草原料的选取步骤入手,通过提高原料选取的速度和精度以提高卷烟生产效率和成品品质。
所谓支持向量机(svm),其实就是一种分类器,其能够在样本的特征空间中找到一个超平面,将两类样本分开,svm模型的目标函数就是这样一个超平面。在二维特征空间中,这个超平面就是一条直线,如果在二维空间中,找不到这样一条直线将两类样本分开,就可以将样本的特征数据投影到三维乃至更高维的空间中,直至可以找到一个超平面将两类样本分开。随着维度的升高,其投影越发复杂,由于在寻找超平面的数学计算中,需要特征向量的内积,因此可以通过核函数直接计算特征向量的内积,不用真的投影输入数据。
作为本发明的优选,步骤d中,选用高斯核函数。高斯核函数的公式如下:
其中,x为本申请中的特征向量,y为本申请中的类别向量,γ为超参数。
作为本发明的优选,步骤d中,还需通过调节高斯核函数的超参数,对预测模型进行优化训练完成模型的构建。
由于本申请中具有多组类别,支持向量机是针对二分类问题提出的,一个分类器只能输出两个结果:是该类别或不是该类别。对于多分类,需要以二分类为基础,通过一定的组合原则,构建多分类分类器,常见的构造方法包括一对一方法和一对(多)方法,以及在这两种方法基础上的改进算法等。作为本发明的优选,步骤d中,所述支持向量机采用一对一分类算法。一对一算法的基本思想是:在任意两类样本之间设计一个svm,因此k个类别的样本就需要设计k(k-1)/2个svm。当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别。一对一法的识别结果具有确定性,识别率高。
为了提高模型的准确性,作为本发明的优选,步骤d中,选取85%-95%的烟叶原料样本的样本数据作为建模训练集,剩余样本数据作为模型测试集。
作为本发明的优选,还包括模型汉明损失检验步骤:应用模型测试集中的样本数据,通过汉明损失计算公式计算预测模型预测的类别与实际的类别之间的差异。汉明损失值越小则模型的预测分类能力越强。其中,汉明损失的计算公式如下:
其中,d为样本的总数,l为类别总数,xi为预测值,yi为真实值,xor为异或运算符。
由于选取的特征在各个类别中,并不都是差异显著的,而差异不显著的特征不适用于作为模型构建特征。作为本发明的优选,步骤c中,还包括对选取的特征进行kruskal-wallis检验步骤,选用检验结果为p<0.001的特征作为样本数据。kruskal-wallis检验的原假设是:多个独立样本来自的多个总体的分布无显著差异。其基本思想是:首先,将多组样本数混合并按升序排序,求出各变量值的秩,然后,考察各组秩的均值是否存在显著差异。如果各组秩的均值不存在显著差异,则认为多组数据充分混合,数值相差不大,可以认为多个总体的分布无显著差异;反之,如果各组秩的均值存在显著差异,则是多组数据无法混合,有些组的数值普遍偏大,有些组的数值普遍偏小,可认为多个总体的分布存在显著差异,至少有一个样本不同于其他样本。
作为本发明的优选,经过kruskal-wallis检验后,以烟气浓度、劲头、香气质、香气量、透发性、杂气、细腻程度、柔和程度、圆润感、刺激性、干燥感、余味、总糖、还原糖、总植物碱和总氮作为烟叶原料样本的特征。
其中,常规化学成分:总糖、还原糖、总植物碱和总氮的特征数据用其本身检测数据即可。而感官质量的特征数据需要根据烟草行业标准《yc/t530-2015烟叶质量风格特色感官评价方法》进行评价打分。
作为本发明的优选,步骤d中,还包括通过计算各个样本数据之间的欧式距离、以对若干组类别进行组间差异检验和组内差异检验的步骤,选用组间欧式距离大、组内欧式距离小、且组内欧式距离小于组间欧式距离的类别作为样本数据。
本发明的有益效果:
1.本申请以感官质量和常规化学成分作为建模特征,以单料烟感官质量评吸和化学成分相结合确定功效定位,使得功效定位模块更合理、科学,便于生产管理和过程均衡控制。
2.本申请以支持向量机和核函数对大量样本数据进行训练以及验证来构建模型,使得模型预测准确度高。
3.本申请不限制功效定位类别数量,实用性广。
4.通过本申请构建的模型,可以快速了解原料的使用方向,能够指导企业烟叶原料调拨计划和烟叶原料配方使用计划,进一步拓宽了原料使用范围,提高原料使用价值,满足和保障卷烟品牌的原料需求,提高卷烟产品质量的稳定性。
具体实施方式
以下是本发明的具体实施方式,并对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
一种基于卷烟配方需求的烟叶原料功效定位方法,包括以下步骤:
(1)功效定位模型的构建:
a.根据不同卷烟品牌的不同的功效定位,确定若干组类别;b.为每组类别选取具有代表性的烟叶原料样本。
本实施例中,针对本烟草企业近三年调拨的658个等级的烟叶原料,根据不同卷烟品牌的风格特色和功效定位,选取了其中197个等级的能够代表各卷烟品牌的各功效定位的烟叶原料样本(每种等级的烟叶原料样本可以有多个,同一等级的烟叶原料样本的功效定位一致),如下表1。
表1.
c.选取感官质量和常规化学成分中的连续变量作为烟叶原料样本的特征。
初步选取感官质量(烟气浓度、劲头、香气质、香气量、透发性、杂气、细腻程度、柔和程度、圆润感、刺激性、干燥感和余味)和常规化学成分(总糖、还原糖、总植物碱总氮、钾和氯)作为烟叶原料样本的特征。
其中,常规化学成分的特征数据选用其测定数据。感官质量的特征数据需要根据烟草行业标准《yc/t530-2015烟叶质量风格特色感官评价方法》进行评价打分。
对上述初步选取的特征进行kruskal-wallis检验,检测结果如下表2。
表2.
通过表2可知,烟气浓度、劲头、香气质、香气量、透发性、杂气、细腻程度、柔和程度、圆润感、刺激性、干燥感和余味等感官指标检验结果均为p<0.001,说明各类别代表性烟叶原料样本的感官品质质量在1.0%水平下差异显著;总糖、还原糖、总植物碱和总氮指标检验结果均为p<0.001,说明各类别代表性烟叶原料样本的总糖、还原糖、总植物碱和总氮在1.0%水平下差异显著;钾、氯指标检验结果均为p>0.05,说明各类别代表性烟叶原料样本的钾、氯指标在5.0%水平下差异不显著,这与钾、氯的各类别质量目标情况一致,所以在模型构建不采用钾和氯特征,只选用剩余16个特征。
d.每一个烟草原料样本具有16个特征,将16个特征依次以英文字母表示,储存在向量xi=[a,b,c……q]中,同时,每一个烟草原料样本所属于一个类别yi,因此,每个烟草原料样本可用一个向量[xi,yi]来表示,称为一个样本数据。
应用样本数据,可以对计算各个样本数据之间的欧式距离、以对若干组类别进行组间差异检验和组内差异检验,检验结果如下表3。
表3.
通过表3可知,确定的10组类别整体间存在差异,可以采用该10组类别建立模型。
随机选用177个的样本数据,应用python软件,采用支持向量机、选用高斯核函数、采用一对一分类算法对样本数据进行训练,并通过调节高斯核函数的超参数,对模型进行优化训练,以得到预测模型。
选用剩余20个的样本数据,将其带入预测模型中得到预测类别,并通过汉明损失计算公式计算预测模型预测的类别与实际的类别之间的差异。
计算得到的汉明损失为0.3,说明该预测模型对预测效果较优。
(2)待测烟叶原料的功效定位:将本烟草企业三年中调拨的658个等级烟叶的特征数据带入上述预测模型中进行分类。通过下表4可知:模型预测类别特征检验结果均为p<0.001,说明模型预测类别的特征均在1%水平下差异显著。
表4.
统计分析各种等级的烟叶的功效定位与配方技术员主观经验相比,几乎无差异。表明通过本申请的功效定位模型可为原料产区、等级在品牌配方原料使用的拓展提供方向和指导,进一步提升原料使用范围和使用价值;具体如下:
1.类别1实现了云南普洱、曲靖和湖南郴州产区及c2l等级的拓展;
2.类别2实现了云南昆明产区及c1l、c2f、bif、c3l等级的拓展;
3.类别3实现了云南曲靖、德宏、临沧等6产区及c3f、x3f等级的拓展;
4.类别4实现了云南临沧、四川凉山和重庆3产区,b2f、c1l、c3l等级的拓展;
5.类别5实现了云南保山、重庆和湖南永州等8产区及b3f、c3f、c4f等5个等级的拓展;
6.类别6实现了贵州遵义、重庆和湖南郴州等4产区、云烟85品种及b3f、b2f等4个等级的拓展。
7.类别7实现了云南大理、福建三明、湖南郴州等8产区及b3f、c3l、c4f等级的拓展;
8.类别8实现了云南昆明、福建三明、贵州遵义等7产区及c2l、c3f、b4f等级的拓展;
9.类别9实现了云南大理、山东日照、辽宁阜新等6产区的拓展,nc55品种及c2f、b2f、x3f等级的拓展;
10.类别10实现了云南保山、重庆、河南洛阳等10产区,秦烟96等3个品种及b2f、b2l、b3f等7个等级的拓展。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除