数据分析工作经验总结范文第1篇关键词:板式剪力墙住宅;钢筋用量估计;钢筋用量曲线中图分类号:TU241文献标识码:A文章编号:1009-2374(2011)04-0088-02研究数据选自作者本人亲自下面是小编为大家整理的数据分析工作经验总结【五篇】,供大家参考。
数据分析工作经验总结范文第1篇
关键词:板式剪力墙住宅;
钢筋用量估计;
钢筋用量曲线
中图分类号:TU241 文献标识码:A 文章编号:1009-2374(2011)04-0088-02
研究数据选自作者本人亲自参与预算、结算全过程的北京地区4栋高层板式剪力墙住宅项目。数据具有极强的真实性,通过对钢筋用量的研究,用统计学的方法加以归纳总结,得出规律性结论,并以正式出版物的数据加以辅助验证。结论对于项目的决策、造价控制,结算审核等具有重要的指导意义和参考价值。
案例:工程名称为某小区B2#、B6#、B8#、B9#住宅楼,建设地点为北京市郊区。工程的主要结构形式为剪力墙结构,抗震设防烈度为8度。防火设计建筑分类:B2#楼为一类高层,其余为二类高层。建筑耐火等级为一级,结构安全等级为二级,设计使用年限为50年,抗震设防类别为丙类,场地类别为三类,地基处理方案为CFG桩,基础为筏板基础,地基基础设计等级为乙级。
一、研究数据的选取
第一,直接分析数据的选取及数据分析软件的选用。选取B2号、B6号、B8号、B9号四栋剪力墙高层住宅的总体和细部钢筋量进行分析。
第二,对比分析数据的选取。选取中国勘察设计协会技术经济委员会和建设不标准定额研究所合编,由中国建筑工业出版社于2002年12月出版的《民用建筑经济技术指标城市住宅建筑》中北京地区高层剪力墙民用住宅七个工程进行对比。以校核和验证本论文对高层民用剪力墙住宅各项指标分析所的结论的科学性和合理性。
经验公式模型的选取:尽量选取单调函数,尽量简单、便于实际应用。
二、剪力墙住宅总建筑面积―剪力墙住宅总钢筋用量分析对比
第一,选取工程。
第二,对比工程。
第三,剪力墙住宅总建筑面积―总钢筋用量,对数回归分析。
图中相关参数意义如下:
x:B9#、B8#、B6#、B2#楼剪力墙住宅总建筑面积(100m2):
Y:B9#、B8#、B6#、B2#楼剪力墙住宅总钢筋用量(t);
g(x):B9#、B8#、B6#、B2#楼数据经对数回归分析后得到的对数函数;
x1:对比的七个工程的剪力墙住宅总建筑面积(100m2):
Y1对比的七个工程的剪力墙住宅总钢筋用量(t);
O:(x,Y)坐标对应的点;
:(X1,Y1)坐标对应的点;
g(x)为剪力墙住宅总建筑面积一总钢筋用量对数回归函数。即B9#、B8#、B6#、B2#楼剪力墙住宅总建筑面积(100m2)――x与剪力墙住宅总钢筋用量(t)――Y,呈现Y=g(x)的对数回归函数关系。其表达式为:
g(x)=7797.897*ln(x+903.306)-53451.503
由剪力墙住宅总建筑面积一总钢筋用量对数回归四个样本点的残差为依次为(-15.234,17.259,-2.057,0.033),与钢筋用量数量级相差甚远,说明经验公式的准确性较高。
残差是回归分析中重要的概念,其表征了估计值和实际值之间的差异,差异越小,估计越准确。
g(x)和Y的相关系数:0.9999412187
g(x)和Y的R2系数:0.9998824408,R2系数自由度为2。
可见,由回归分析所得出的剪力墙住宅总建筑面积一总钢筋用量的经验公式与实际样本数据相关性很高,也说明经验公式的准确性较高。
对比工程数据围绕对数回归函数曲线上下波动,说明由已作工程得出的对数回归曲线具有一定的代表性和实际意义。
数据分析工作经验总结范文第2篇
【关键词】煤炭工业 统计分析 创新思路
当前社会经济的快速发展离不开能源的保障和支持,工业生产、民生生活中对于能源的以来程度越来越高,能源产业的波动将直接影响整个世界的经济发展。我国的能源结构主要是由煤炭为主,石油、天然气等多种能源形式相结合的模式。我国的煤炭资源分布广泛、储量大、煤质好,我国拥有悠久的采煤和煤炭加工的历史,煤炭资源已经成为我国社会经济发展和群众生活不可或缺的重要战略资源。正是由于煤炭资源的重要性,所以对于煤炭资源的行业实况必须进行检测和统计,通过统计针对性的技术参数,可以根据阶段性的数据分析结果,总结历史规律并预测煤炭行业的未来走向。同时通过对煤炭行业的企业经营实况进行统计分析,可以获取煤炭企业的经济效益和业务分布,为下一阶段的行业发展提供决策依据;
通过行业内部不同企业之间的经营对比,更加可以总结行业内的优秀生产、管理、销售和服务经验,取长补短;
因此,煤炭企业的统计工作是一项收集历史数据、分析数据规律、总结历史经验和预测未来发展的有效途径。
一、煤炭行业统计工作的现状
企业经营统计工作在许多人心目中还仅仅是停留在企业经验销售额报表、绩效考核报表和企业会计数据报表等等一些列的经营数据报表之中,对于统计分析在企业经营决策活动中的重要作用远远没有意识到。煤炭行业是一个能源行业,在我国属于垄断经营行业,半封闭化的经营环境削弱了行业内的竞争意识,缺乏竞价经营的销售压力,行业内往往在企业经营数据统计上只是对终端数据如销售总额、利润总额和绩效考核等等感兴趣,综合来看,还存在着许多亟待解决的问题:
(1)缺乏对统计工作的认知。煤炭企业往往是大型国有企业,企业管理多为领导负责制。单向的管理机制使得企业统计工作往往只是停留在终端数据的统计上,责任领导关注的是煤炭企业在经营上是否达到预定目标,包括全年产煤量、售煤量和利润总额等,对于统计工作的具体开展过程、统计工作的细分程度和统计数据的分析处理,以及统计工作后续处理结果对于经营活动的关键性作用还缺乏足够的认知和重视。
(2)缺乏规范的统计管理体制。统计工作的开展需要渗透到煤炭企业经营活动的各个环节,因此,健全的统计管理机制和规范化的统计操作技术至关重要。当前的煤炭企业管理中,统计工作更像是财务部门的额外工作,仅仅是从财务数据中挑出一部分数据最为周期性的统计数据报表。缺乏专业的统计管理任务全程跟进煤炭企业的生产、销售和服务环节,没有一手的统计数据,统计分析的关键性作用也就无从谈起。
二、煤炭企业统计工作创新管理
针对煤炭企业统计工作的开展情况和在实际工作中暴露出来的实际问题,我们应该重视煤炭企业统计工作的体制创新、思路创新和细节创新,从以下几个方面强化工作效率。
建立健全规范化的统计管理机制。煤炭行业是一个高度集成且功能齐全的能源行业,行业涉及煤炭的开采、储存、运输、加工、再加工、销售和服务等,每一个环节都对应相应功能的企业群,如何针对每一类煤炭企业的经营特点,有针对性的获得关键性的生产经营的统计数据,这需要在煤炭行业中建立健全规范化的统计管理体制。首先是要明确该管理体制的目标任务,在企业的企业方针的生产经营预算中,要将统计工作放在与生产、销售同等重要的位置上,提升整个企业对于统计工作的重要性;
其次是要健全统计管理的管理团队,团员挑选重视业务熟练性、统计专业背景和责任心;
最后是要将统计工作细化到煤炭企业生产经营的各个流程,通过跟踪、采集和数据录入的方式,获取最为精确的一手经营数据,建立统计资料的数据库,完善数据库的自动化管理办公功能,为下一步的数据分析提供技术支持。
提升统计分析技术手段。统计工作是一项对专业技术要求极高的行业,首当其冲是要对煤炭行业的业务熟练,这需要统计工作人员具备相当的煤炭行业从业经验,并且能够识别出煤炭行业各个技术环节的经营数据;
其次是要对经营数据进行审核和挑选,经营数据的总量往往是海量的,在实际的统计工作中只能挑选出具备代表性的数据,因此对于统计人员的数据甄别能力有一定的考验;
再者,自动化和信息化的统计技术手段能够有效的提高统计效率和精度,这要求在煤炭企业的经营管理中提高经营信息的信息化进程,为统计工作提供便利;
最后是要对统计数据进行分类处理,这需要丰富的统计分析经验和数据处理技术手段,才能保证统计分析质量。
强化统计分析的数据监督。统计数据往往是煤炭企业经营活动的直观体现,因此,对于统计分析的质量要严格把关,从统计数据的收集、记录归档、数据分析、数据储存和分析报表的制定,都必须设立严格的操作规范,并通过第三方监督机构进行周期性的审查和抽查,确保数据的准确性、及时性和完整性;
对于统计分析的管理人员要进行周期性的统计技能培训和专业技能考核,通过量化绩效考核和良性的竞争淘汰机制,确保统计分析管理团队的专业素质水平。
三、总结
煤炭行业是国家重要的基础支柱产业,对于煤炭行业的信息管理对于国家战略政策安排有着至关重要的作用。统计工作最为信息管理最有效的技术手段,是煤炭行业管理工作的重要组成部分。本文将从我国煤炭行业中统计工作的现状分析开始入手,探讨了当前统计工作中存在的不足,为开拓煤炭统计工作的创新思路提供了新的建议。
参考文献:
数据分析工作经验总结范文第3篇
关键词:承重木结构;
设计与分析软件;
木材密度;
最小二乘
1 概述
在参加第三届国际青少年创新设计大赛(IC)的承重木结构比赛时,为了达到木结构重量≤4.9g而承重40kg的设计目标,制作了大量的桐木结构,分别如图1所示。由于采用的是纯粹的实际制作再实验、失败后再制作的摸索尝试方法,不仅耗时长且由于缺少科学的设计与分析,试验结果均失败了。
同时,通过对失败的试验结果分析发现(如图2所示),关键节点的受力分析也显得极为重要。
经查阅文献,承重木结构设计与分析有两类方法:一种是数值仿真的方法[1],需要熟练掌握PROE和ANSYS专业软件,不适合高中生;
另一种是用工程力学中的公式计算方法[2],将相应参数代入即可求解得出,但使用起来不够方便。因此,文章借助C++编程设计一个承重木结构设计分析软件,将工程力学计算、力学分析、密度测定和总重量计算功能集成在一起,结合实际的设计要求和设计结构,可以快速地得出设计的木结构承重截面积、节点受力分析和木结构总重量,进而避免很多的弯路,为轻木承重结构设计与分析提供一种新的方法和手段。
2 总体方案设计
根据承重木结构设计与分析的需求分析,文章的总体方案如图3所示。
承重木结构设计与分析方法由PROE三维模型建模、密度测量试验以及承重木结构设计与分析软件三部分组成。
首先由木材密度测量试验得到抽检的木材多批次不同体积、重量数据,将记录的体积、重量数据输入承重木结构设计与分析软件的密度测定模块,经最小二乘拟合得出木材的密度;
其次用PROE建立三维结构实体模型(如图4所示)并产生各部件长度数据,将长度数据输入结构总重量计算模块可以得出结构总重量;
然后根据单根立柱承重的临界压力、立柱长度和弹性模量由立柱截面积计算模块得出立柱截面积的下限;
通过输入关键节点所有受力的大小和方向,可由节点受力分析模块给出该关键节点受力分解与合成结果。
3 承重木结构设计与分析软件的设计
3.1 结构总重量计算模块
结构总重量计算模块首先读入PROE得出的各部件面积与长度,然后经公式(1)计算出结构的总体积,最后再乘以木材密度即得出结构的总重量。
3.2 立柱截面积计算模块
立柱截面积计算模块由如式(2)的欧拉公式[2]通过临界压力计算得出最小的立柱截面积。
3.3 节点受力分析模块
节点受力分析模块由输入的节点各受力大小和方向(与x轴的夹角),将各受力分解到x-y平面的对应轴上(式(3)),并将x轴和y轴上的各分解力分别
3.4 密度测定模块
密度测定模块输入密度测量试验(遵照“GB/T 1933-2009木材密度测定方法”中的游标卡尺测量木材试样尺寸)得到的多个体积、重量数据,将记录的体积、重量数据经最小二乘法拟合得出木材的密度。密度表达式如式(4)所示
4 承重木结构设计与分析方法的验证
4.1 结构总重量估计
经承重木结构设计与分析软件估计的结构总重量为6.14g,经实测的结构总重量为6.08g,估计的结构总重量很好地吻合了实际总重量。实测结果如图6所示。
4.2 立柱截面积计算
由图1可以看到,在文章的承重木结构设计与分析软件研制之前,承重木结构制作无法平衡重量和承重量之间的矛盾,现经承重木结构设计与分析软件分析后得出了单根立柱截面积应≥13.3mm2的结果,为实际的承重木结构制作有理论指导作用,并成功地制作出图6所示的承重木结构撑起了40Kg杠铃,如图7所示。
4.3 节点受力分析
应用承重木结构设计与分析软件中的节点受力分析模块对图2中加深线所示节点进行受力分析,得出其失败的必然性和需提供摩擦力不足的4Kg拉力的结论,并将结构改进成图4的结构,如图7所示成功支撑起了40Kg重量。
4.4 密度测定
经密度测定试验和密度测定模块对密度测定试验数据的最小二乘处理,使估计的结构总重量很好地吻合了实际总重量,远远高于没有承重木结构设计与分析软件之前的总重量估算精度(之前的估算精度经常大于0.2g,且离散度较大)。
5 结束语
文章提出了一种承重木结构设计与分析方法,由PROE三维模型建模、密度测量试验以及承重木结构设计与分析软件三部分组成。此方法有别于传统的专业数值仿真分析(需要熟练掌握PROE和ANSYS)和用工程力学中公式手工计算分析的方法,通过承重木结构设计与分析软件,可以避免盲目地摸索并较准确地定量给出承重木结构关键指标的设计结果,对承重木结构的实际制作提供了一种简便有效的设计与分析方法,尤其适合高中学生使用。
承重木结构设计与分析软件包含结构总重量计算、立柱截面积计算、节点受力分析和密度测定四部分功能模块组成。其中密度测量模块提出将最小二乘算法应用于木材密度的估算,估算结果可以大大提高承重木结构总重量的估计精度。
参考文献
[1]战丽,董路平,林伟芬,等. 基于 Proe5.0与Ansys-Workbench板材起重运输三工位上料机机架主梁的有限元分析[J]. 林业机械与木工设备,2012(12):40-43.
数据分析工作经验总结范文第4篇
第一部分:个人年度工作盘点
一、岗位认识及自我评价
1、岗位认识:作为一名检测分析员的主要职责是根据质检标准,负责生产车间产品检验(成品、半成品)等抽检,完成检测分析工作,完成各种原始记录,并出具检验报告。依照作业指导书对产品进行过程检验并且指导生产,提高产品的质量合格率,负责定期向质量主管上报质量简报及质量事故。参与建立和完善公司的质检标准和各项质量管理制度。同时不断完善检测分析方法与检测精度,确保检测数据真实有效。
2、自我评价:在2020—2021经营年度里,在工作中,能在开展工作之前做好个人工作计划,合理安排时间,明确自己的检测目标,认真完成各项检测,并及时做好数据记录,对异常数据进行复检,出具相应报告,把好原酒及糟醅质量关,对工作中遇到的问题进行思考和总结;
在生活上,团结同事,在检测过程中同事遇到困难需要帮助的时候及时给予帮助;
在学习上,不断加强专业知识的学习。
二、重点工作内容及完成情况
1、完成8890气相色谱检测方法开发改进工作:2020年8月,对已有两台色谱进行方法修改、优化,独立完成新进8890气相色谱的方法验证及开发、优化标样配制、调整柱温程序,为公司节约了成本,提高了工作效率。①药品用量得到大幅度减少。②相较之前每个样节约30分钟检测时间。
2、参与在线近红外验证实验阶段性数据收集整理。结论:出窖糟醅模型的水分、淀粉较上次检测结果基本持平,准确度无明显的提升;
酸度检测结果相对准确度提升1.920%,准确度有明显的提升;
还原糖检测结果相对准确度上升0.564%,准确度有一定的提升,目前此项工作仍在进行中。
3、完成聚光科技台式近红外光谱对糟醅检测模型建立。对糟醅检测数据进行了收集并根据数据建立了糟醅模型,大大缩减了糟醅检测时间,同时提高了检测效率。
4、完成总部样品对标工作。目前已对己酸乙酯、乙酸乙酯、总酸、总酯、酒精度、甲醇等指标进行了对比,检测结果准确性趋于稳定。2020年9月:与总部甲醇对标,对标结果在10个实验室中排名第二位。公司检测技能及水平得到认可。
5、完成中国白酒贮存陈酿变化规律研究项目酒样理化检测工作并对其数据进行收集整理。该项工作持续进行中。
6、参与并完成公司黄水回窖实验项目的黄水、酒样检测工作。
7、帮带工作完成情况:本经营年度完成5名新进员工白酒色谱及糟醅、白酒理化检测帮带工作。
8、保质保量完成白酒、糟醅、生产生活用水的常规检测工作,并每月进行数据汇总、编写汇报材料及质量简报。
9、积极参加部门技能竞赛分别获第三名、第一名、第一名。参加总部第五届检测技能竞赛获第四名。
10、本年度完成对检测分析全部药品的盘存清点工作(除危化品盐酸、硫酸、丙酮以毫升记录外,其余药品均按瓶进行记录)。并按要求制定了相关药品、化玻仪器盘点台账,每月核实药品使用情况并提交月度药品盘存记录及月度药品物资申报。
11、完成临时性检测工作(品评室并罐酒样、工艺实验酒样及糟醅检测)。
三、工作中存在的问题及不足
1、在学习方面,还存在浮躁情绪,有急用、实用思想。
2、在工作上做事有欠考虑,解决问题过于片面不能从全局去考虑问题。
3、专业技能储备不足:在工作中遇到突发问题不能及时分析问题发生的原因,不懂如何解决,导致问题长时间存在。
4、沟通能力欠缺:遇到需跨部门协助完成的任务时,不能及时与其他部门人员做好沟通,导致工作效率较低。
5、文字功底较差:书写分析报告时存在逻辑不清,重点偏离等问题。
第二部分:下年度的改进方向和工作计划
一、个人能力提升方面
1、完成学历提升学习。
2、自学高效液相色谱相关操作方法。
3、熟悉并掌握各项检测标准,针对现阶段还未进行检测的项目或已配置的仪器使用方法进行学习,并对已有的检测技能操作进行巩固。
二、工作改进方面
1、熟知各类检测标准,时刻训练检测技能,保证检测准确性,同时对检测标准及方法进行改进优化,提高工作效率、节约检测成本。
2、培养大局观,不可只顾眼前问题,要客观、冷静分析,从人机料法环进行分析解决。增强个人处理及分析数据的能力,熟悉酿酒生产工艺,找到实验中异常数据产生的原因,并制定相关改进措施。
数据分析工作经验总结范文第5篇
[关键词] 经济与管理;
本科生;
数据挖掘;
教学探索
[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03
0 引言
数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。
1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析
从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。
从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;
对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。
数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。
2 教学过程中存在的问题
笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。
1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。
2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。
针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。
3 教学内容设计
用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。
1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;
数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;
模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;
知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。
2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。
3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;
在介绍分类挖掘任务时讲解客户流失分析的应用案例;
在介绍聚类挖掘任务时分析客户细分的应用案例。
基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。
第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。
第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。
第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。
第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。
4 实验项目设计
数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。
笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。
第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;
(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;
(3)使用Analysis Server向导,建立多维数据集;
(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。
第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;
第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;
第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。
5 教学方案实施
在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。
6 结束语
数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。
参考文献
[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.
[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.
[3]刘昆宏.浅谈本科阶段数据挖掘课程设置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.