2022年POMS中国暑期学校授课第七期简报
来源: | 作者:pmo1f0747 | 发布时间: 2022-09-29 | 320 次浏览 | 分享到:

2022POMS中国暑期学校授课第七期简报


2022929

2022 POMS 中国暑期学校 9 29日上午授课活动于 830 在腾讯线上进行。邀请授课老师分别是爱荷华大学樊卫国教授和中科院张新雨研究员。

第一堂课程:《Quality Analytics Using Natural Language Processing

授课老师:樊卫国教授(爱荷华大学,ISJJAISIM 副主编)



樊卫国教授主要分享自己在质量分析和质量监控领域的个人经验、研究方法及研究成果等。首先,樊卫国教授介绍了质量分析技术(Quality Analytics)的定义,即任何有助于发现与质量问题相关(包括数据质量、制造质量、产品质量、服务质量等)的分析技术、方法、算法、框架等都属于质量分析。这些质量问题主要涉及产品的售前和售后阶段,樊教授指出其研究主要采用用户生成内容(UGC)数据分析售后阶段的产品质量问题,数据分析的流程主要采用CUP框架,即数据采集、数据理解和数据呈现。

其次,樊教授详细介绍了自己采用的研究方法—自然语言处理(NLP),阐述了自然语言处理的关键技术、流程、主要任务和常用方法等。具体地,第一,自然语言处理的关键技术主要涉及词法分析、句法分析、语法分析和语义分析等;第二,自然语言处理的流程包括:1. 收集数据,建立数据库;2. 数据预处理;3.特征分析;4.特征提取与选择;5. 数据挖掘;6. 结果呈现。第三,自然语言处理的主要任务可以分为两类:(1)描述性分析,主要涉及信息的提取、概念的联合、信息簇、自动摘要生成和本体设计等;(2)预测性分析,主要涉及文本分类和聚类、偏差检测、问答系统和趋势性分析等。第四,自然语言处理常用的方法包括:基于规则的算法、词类标记、语言解析、降维、有监督学习、无监督学习和半监督学习等。

最后,樊教授分享了其2015年发表在POMS上的一篇文章:《An Integrated Text Analytic Framework for Product Defect Discovery》。樊教授解释了该研究关注产品缺陷的原因,该研究从质量管理的角度分析社交媒体用户生成的用户生成内容 (UGC),提出了一个用于产品缺陷发现的集成文本分析框架。该框架有效地利用了丰富的社交媒体内容,并使用各种自动提取的信号线索来量化文本。然后可以将这些提取的信号线索用作产品缺陷发现的建模输入。通过在汽车和消费电子领域使用 UGC 执行产品缺陷发现来展示该框架的实用性。

樊教授还指出质量分析和质量监控领域的研究需要多种背景,建议学员多学、多读、多看,尽可能多学一些相关的课程补充相关知识背景,如统计分析、经济学、机器学习/人工智能、自然语言处理、优化算法、仿真技术等。讲座结束后,樊教授回答了同学们提出的问题。



第二堂课程:《Model Averaging, Transfer Learning, and COVID-19 Pandemic Forecasting in Europe

授课老师:张新雨研究员(中科院,国家杰出青年基金获得者)



张新雨研究员主要从事统计学和计量经济学的理论和应用研究工作, 具体研究方向包括模型平均、机器学习、组合预测和卫生统计等。担任期刊 Journal of Systems Science and Complexity 领域主编、 Statistical Analysis and Data Mining 期刊 Associate Editor、期刊《系 统科学与数学》和《应用概率统计》编委,发表了50 多篇学术论文,其中 20 余篇论文发表在 Annals of StatisticsBiometrikaJASA JRSSBJournal of Econometrics Econometric Theory

张新雨研究员本期授课的主题为Model Averaging, Transfer Learning, and COVID-19 Pandemic Forecasting in Europe,重点讲述模型平均方法和迁移学习方法及其在欧洲COVID-19大流行预测研究中的综合应用。第一,对模型平均方法进行文献回顾。具体地,对比分析 “平均”和“选择”方法,指出“平均”方法的优势。模型平均方法包括贝叶斯模型平均(BMA)和频率模型平均(FMA),其中,频率模型平均方法是近年来被广泛采用的模型平均方法,主要分为Smoothed AIC/BICAdaptive Repression by Mixing(ARM)Asymptotically Optimal 三种方法。

第二,介绍模型平均方法和迁移学习方法的结合。首先,张新雨研究员指出迁移学习方法是机器学习领域的一种重要方法,被广泛应用于生物学中的肽预测、儿童健康研究等领域,主要是利用来自另一个领域的特征来解决某一领域的分类或预测问题。其次,阐述迁移学习与传统的机器学习的区别。传统的机器学习利用数据、知识等建立模型,进行预测;而迁移学习有源模型和目标模型,需要从一个或多个源目标中提取知识,并将其迁移到目标模型中,迁移的内容包括数据、模型结构、参数等,以提高目标模型的性能,其本质是偏差和方差的平衡。最后,讲述如何使用模型平均方法实现高效迁移。设置主模型和辅助模型,目标是对主模型进行预测。预测过程包括:(1)对参数进行估计;(2)使用估计量进行预测;(3)进行加权;(4)构建交叉验证组合进行权重选择;(5)通过最小化交叉验证的平均预测误差来选择权重;(6)将选择的权重带入到之前的预测结果,即为模型平均预测。

第三,讲述了基于加权模型平均法的迁移学习欧洲COVID-19大流行预测的应用。主要提取英国、法国、意大利、西班牙、瑞士、法国、荷兰、比利时和奥地利这几个国家的每日新增确诊病例数据,以此为迁移预测整个欧洲的COVID-19发展趋势,最终预测结果表明相较于单模型(即不迁移),基于加权模型平均方法的迁移效果更好。讲座结束后,张研究员同师生进行了交流互动并回答了同学们提出的问题。




   撰稿:2022年POMS中国暑期学校学员王天华(东北财经大学)