AI人工智能应用实例
本文从化工制药领域、服装纺织领域、材料加工领域、电力电机领域、医药医学领域、金融保险领域、新闻媒体领域、网络安全领域等具体的展示了AI人工智能应用实例。
一、化工制药领域
应用背景
天津汉德威药业有限公司是一家原料药制造企业,聚焦智能制造。近年来,人工智能在工艺参数优化以及视频检测等领域取得了突飞猛进的成果。AI技术的发展有望助力原料药制造企业实现工艺生产革新,规范生产操作过程,从而达到提高产品的收率的目标。本项目以原料企业工艺优化为课题,要求以异烟酸生产过程中的各参数,设计精确智能的优秀算法,提升异烟酸的收率,助力企业实现转型升级,提升领域竞争力。
应用描述
异烟酸用作医药中间体,主要用于制抗结核病药物异烟肼,也用于合成酰胺、酰肼、酯类等衍生物。烟酰胺生产过程包含水解脱色、结晶甩滤等过程。每个步骤会受到温度、时间、压强等各方面因素的影响,造成异烟酸收率的不稳定。为保证产品质量和提高生产效率,需要调整和优化生产过程中的参数。然而,根据传统经验的人工调整工艺参数费时费力。公司要求以异烟酸生产过程中的各参数,包括各主要步骤的时间、温度、压强等参数为基础,设计精确智能的优秀算法,提升异烟酸的收率。
应用数据
公司提供脱敏后的实际生产数据。数据包含有2000批次来自实际异烟酸生产中的各参数的监测指标和最终收率的数据。监测指标由两大工序数十个步骤构成。总生产步骤达30余项,工序和步骤分别用字母和数字代号表示,比如A2,B5分别表示A工序第二步骤和B工序第五步骤。
二、服装纺织领域
应用背景
江苏阳光集团从事服装纺织行业。服装布匹疵点检验是纺织领域生产和质量管理的重要环节,目前的人工检验速度慢、劳动强度大,受主观因素影响,缺乏一致性。2016年我国布匹产量超过700亿米,且产量一直处于上升趋势,将人工智能和计算机视觉技术应用于纺织领域,对纺织领域的价值无疑是巨大的。
应用描述
本项目要求开发算法模型,通过布样影像,基于对布样中疵点形态、长度、面积以及所处位置等的分析,判断瑕疵的种类 。通过探索布样疵点精确智能诊断的优秀算法,提升布样疵点检验的准确度,降低对大量人工的依赖,提升布样疵点质检的效果和效率。
应用数据
公司提供布料样本,包括布样、取样环境、疵点判断标准。样本数据涵盖纺织业中素色布的各类重要瑕疵。数据共包括2部分:原始图片和瑕疵的标注数据。训练数据文件结构如下:
a) 提供用于训练的图像数据和标注数据,文件夹结构如下:
o 正常
o 薄段
o 笔印
…
o织稀
b) 正常 : 存放无瑕疵的图像数据,jpeg编码图像文件。图像文件名如:XXX.jpg
c) 薄段、笔印、…、织稀: 按瑕疵类别分别存放瑕疵原始图片和用矩形框进行瑕疵标注的位置数据。图像文件jpeg编码。标注文件采用xml格式,其中filename字段是图像的文件名,name字段是瑕疵的类别,bndbox记录了矩形框左上角和右下角的位置。图像左上角为(0,0)点,向右x值增加,向下y值增加。
defect code和瑕疵的对应关系:
norm | defect_1 | defect_2 | defect_3 | defect_4 | defect_5 | defect_6 | defect_7 | defect_8 | defect_9 | defect_10 |
正常 | 扎洞 | 毛斑 | 擦洞 | 毛洞 | 织稀 | 吊经 | 缺经 | 跳花 | 油/污渍 | 其他 |
注:“其他”代表剩余所有类型的瑕疵
三、材料加工领域
应用背景
铝型材是佛山南海的支柱性产业。近年来,深度学习在图像识别等领域取得了突飞猛进的成果。铝型材制造商希望采用AI技术使铝型材产品的生产管理者彻底摆脱无法全面掌握产品表面质量的状态,助力企业实现转型升级,提升领域竞争力。
应用描述
在铝型材的实际生产过程中,由于各方面因素的影响,铝型材表面会产生裂纹、起皮、划伤等瑕疵,这些瑕疵会严重影响铝型材的质量。为保证产品质量,需要人工进行肉眼目测。然而,铝型材的表面自身会含有纹路,与瑕疵的区分度不高。传统人工肉眼检查十分费力,不能及时准确的判断出表面瑕疵,质检的效率难以把控。铝型材制造商希望采用AI技术来革新现有质检流程,自动完成质检任务,减少漏检发生率,提高产品的质量。
应用数据
数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据,每个影像包含一个或多种瑕疵。供机器学习的样图会明确标识影像中所包含的瑕疵类型。
瑕疵的衡量标准如下:
1. 型材表面应整洁,不允许有裂纹、起皮、腐蚀和气泡等缺陷存在。
2. 型材表面上允许有轻微的压坑、碰伤、擦伤存在,其允许深度装饰面≯0.03mm,非装饰面>0.07mm,模具挤压痕深度≯0.03mm。
3. 型材端头允许有因锯切产生的局部变形,其纵向长度不应超过10mm。
4. 工业生产过程中,不够明显的瑕疵会被作为无瑕疵进行处理,不必拘泥于无瑕疵图片中的不够明显的瑕疵。
5. 图片采用矩形框进行标注,标注文件储存成json文件,采用utf-8的编码格式,可通过labelme开源标注工具直接打开。
四、电力机电领域
应用背景
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
应用描述
锅炉传感器采集数据(采集频率是分钟级别)。根据锅炉的工况,预测产生的蒸汽量。
应用数据
经脱敏后的数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。首先利用训练数据训练出模型,预测测试数据的目标变量,排名结果依据预测结果的MSE(mean square error)。
五、医药医学领域
应用背景
本项目由上海交通大学医学院附属瑞金医院发起主办,以人工智能辅助糖尿病知识图谱构建为题,通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。糖尿病是代谢性疾病,也是慢性疾病,中国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。糖尿病病因复杂,表现出的症状多种多样,这为糖尿病的诊断和治疗带来了很大的困难。
应用描述
本项目旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。需要设计高准确率,高效的算法来挑战这一难题。分为两个课题:“基于糖尿病临床指南和研究论文的实体标注构建”、“基于糖尿病临床指南和研究论文的实体间关系构建”。
应用数据
文件标注工作基于brat软件(http://brat.nlplab.org/)。其中.txt文件为原始文档,.ann文件为标注信息,标注实体以T开头,后接实体序号,实体类别,起始位置和实体对应的文档中的词。如果需要在brat软件中查看标注结果,需要添加.conf文件。
a) 对于第一个课题,瑞金提供与糖尿病相关的学术论文以及糖尿病临床指南,要求在学术论文和临床指南的基础上,做实体的标注。实体类别共十五类。
类别名称和定义
疾病相关:
1、疾病名称 (Disease),如I型糖尿病。
2、病因(Reason),疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导致”,胰岛素抵抗是属于病因。
3、临床表现 (Symptom),包括症状、体征,病人直接表现出来的和需要医生进行查体得出来的判断。如"头晕" "便血" 等。
4、检查方法(Test),包括实验室检查方法,影像学检查方法,辅助试验,对于疾病有诊断及鉴别意义的项目等,如甘油三酯。
5、检查指标值(Test_Value),指标的具体数值,阴性阳性,有无,增减,高低等,如”>11.3 mmol/L”。
治疗相关:
6、药品名称(Drug),包括常规用药及化疗用药,比如胰岛素。
7、用药频率(Frequency),包括用药的频率和症状的频率,比如一天两次。
8、用药剂量(Amount),比如500mg/d。
9、用药方法(Method):比如早晚,餐前餐后,口服,静脉注射,吸入等。
10、非药治疗(Treatment),在医院环境下进行的非药物性治疗,包括放疗,中医治疗方法等,比如推拿、按摩、针灸、理疗,不包括饮食、运动、营养等。
11、手术(Operation),包括手术名称,如代谢手术等。
12、不良反应(SideEff),用药后的不良反应。
常规实体:
13、部位(Anatomy),包括解剖部位和生物组织,比如人体各个部位和器官,胰岛细胞。
14、程度(level),包括病情严重程度,治疗后缓解程度等。
15、持续时间(Duration),包括症状持续时间,用药持续时间,如“头晕一周”的“一周”。
b) 对于第二个课题,瑞金提供与糖尿病相关的学术论文以及糖尿病临床指南,需要从中抽取实体之间的关系。实体之间关系共十类。
实体关系类别名称
1、检查方法 -> 疾病(Test_Disease)
2、临床表现 -> 疾病(Symptom_Disease)
3、非药治疗 -> 疾病(Treatment_Disease)
4、药品名称 -> 疾病(Drug_Disease)
5、部位 -> 疾病(Anatomy_Disease)
6、用药频率 -> 药品名称(Frequency_Drug)
7、持续时间 -> 药品名称(Duration_Drug)
8、用药剂量 -> 药品名称(Amount_Drug)
9、用药方法 -> 药品名称(Method_Drug)
10、不良反应 -> 药品名称(SideEff-Drug)
六、金融保险领域
应用背景
在金融领域,每24小时都会产生大约2.5亿字节的数据,早已超过人脑处理的极限,面对全球百万亿美元的资产管理规模,领域迫切需要人工智能的加入,提升领域运行效率,让投资变得更加智能。在股票市场大力提倡价值投资的背景下,准确预测公司未来营收,是理性投资者最重要的事情。买入盈利超预期的公司,避开盈利能力差的公司,才是投资的长久之道。按照定义,营业收入是企业在生产经营活动中,因销售产品或提供劳务而取得的各项收入,它关系到企业的生存和发展,对企业有重要的意义。
应用描述
在投资研究过程中,上市公司公告是投资者的重要参考材料,挖掘公告重要信息是研究员每日的必要功课,但海量公告却令人脑难以负荷。本项目将尝试让机器根据需求,自动抽取结构化数据,帮助研究员快速获取投资线索。
* 相关名词解释
【信息披露(公告)】主要是指公众公司以招股说明书、上市公告书以及定期报告和临时报告等形式,把公司及与公司相关的信息,向投资者和社会公众公开披露的行为。目前,上市公司所发布的公告,是投资者及社会公众了解企业情况,进行投资决策的基本依据。
【股东增减持】由于上市公司股东、高管相较社会公众更加了解公司的发展状况,因此投资者会格外关注重要股东的买卖行为,并以此作为投资参考。比如:
“股东增持行为”通常表示公司股东对公司营收及发展前景有信心,投资者会跟随追捧,有利于提升公司股价;
“股东减持行为”除股东个人原因外,也可能表示股东对公司发展信心不足,这会给投资者带来一定负面影响,导致投资者抛售股票,公司股价下跌。
【定向增发】上市公司定向增发的主要目是通过融资扩张公司业务和规模,例如发起新项目,研发新技术,收购其他公司等。投资者可以通过定增目的了解公司的融资意图,从而判断公司前景以及投资价值。
【重大合同】上市公司签署重大合同,有利于增加公司营业收入,投资者通过了解合同项目金额,可进一步预测公司未来的经营和业绩情况,从而发掘投资机会。
应用数据
上交所、深交所发布的公告数据。本项目研究3种类型的数据:
1、原始公告pdf,以{公告id}.pdf命名;
2、公告pdf转换的html文件,以{公告id}.html命名;
3、公告对应的结构化数据,以表格的格式给出,每种公告类型提供一份数据,每篇公告可能会对应多条数据,格式说明如下:
公告类型 | 主键 | 第1列 | 第2列 | 第3列 | 第4列 | 第5列 | 第6列 | 第7列 | 第8列 |
股东增减持 | 1-2-4 | 公告id | 股东全称 | 股东简称 | 变动截止日期 | 变动价格 | 变动数量 | 变动后持股数 | 变动后持股比例 |
重大合同 | 1-2-3 | 公告id | 甲方 | 乙方 | 项目名称 | 合同名称 | 合同金额上限 | 合同金额下限 | 联合体成员 |
资产重组 | 1-2-3 | 公告id | 交易标的 | 标的公司 | 交易对方 | 交易标的作价 | 评估方法 |
需要抽取的字段(Slot)结构如下(以股东增减持为例):
a、每条记录包含8个字段,其中第一列为公告id,不需要进行抽取;
b、第1、2、4列构成主键,可以唯一确定一条数据;
c、其中“股东简称”、“变动价格”、“变动后持股数”、“变动后持股比例”可能为空;
股东增减持 | 列数 | 是否主键 | 是否可能为空 | 单位归一化 | 数据类型 |
公告id | 1 | 是 | 否 | bigint(20,0) | |
股东全称 | 2 | 是 | 否 | varchar | |
股东简称 | 3 | 是 | varchar | ||
变动截止日期 | 4 | 是 | 否 | datetime | |
变动价格 | 5 | 是 | decimal(22,4) | ||
变动数量 | 6 | 否 | 股 | bigint(20,0) | |
变动后持股数 | 7 | 是 | 股 | bigint(20,0) | |
变动后持股比例 | 8 | 是 | 百分比转换成小数形式 | decimal(22,4) |
对每个字段、按如下方法进行判别和统计(只需要用到Possible、Actual和Correct):
类别 | 判断标准 | 标记 |
Possible | 标准数据集中该字段不为空的记录数 | POS |
Actual | 结果中该字段不为空的记录数 | ACT |
Correct | 主键匹配 且 提交字段值=正确字段值 且 均不为空 | COR |
七、新闻媒体领域
应用背景
近年来随着IOT,传感器,无人机,摄像手段等的进步,媒体报道进入了一个前所未有的数字新闻环境,在新的环境中,如何利用数字化的事件描述信息来自动化或半自动化的高效辅助新闻报道写作,成为了新媒体的一个重要课题。
应用描述
本项目以各国足球联赛为目标,进行一场前所未有的AI新闻报道创作。目标是产出一套新闻报道的模板或算法,可以通过提供的信息自动写作完成新闻报道。
应用数据
1. 新闻事件数据,各字段描述如下:
字段名称 | 描述 |
n_ActionID | 行动ID |
n_ActionCode | 实际发生的事件Code |
c_Action | 行动事件,包括:伤停补时、开球、得分机会、更换队长、比赛结束、任意球、进球、射门命中目标、视频助理裁判、进球、换人、门将开球、黄牌、犯规、被门将扑救、越位、点球、点球罚失、球门线扑救、坠球、进球、红牌罚下(单场得到第二张黄牌)、射门封堵、角球、射门被封堵、射门偏出、击中横梁、击中门柱、乌龙球、直接红牌罚下 |
c_ActionInfo | 有关行动的其他信息 |
c_ActionReason | 行动原因 |
n_ActionSort | 时间的排序ID |
d_ActionDateUTC | 行动时间(UTC时间) |
n_ActionTime | 发生的时间,毫秒级 |
c_ActionMinute | 发生的时间,分钟 |
c_Period | 比赛阶段 |
c_Team | 发生时间的球队 |
n_PersonID | 事件对应的人ID |
c_Person | 事件对应的人 |
n_SubPersonID | 事件的关联人ID |
c_SubPerson | 事件的关联人 |
n_HomeOrAway | 是主队还是客队 |
n_HomeGoals | 主队即时的得分 |
n_AwayGoals | 客队即时的比分 |
n_XCoordinateStart | 球场x坐标 |
n_YCoordinateStart | 球场y坐标 |
n_YCoordinateGoalLine | 球门y坐标 |
n_ZCoordinateGoalLine | 球门z坐标 |
2. 新闻图集数据,各字段描述数据如下:
字段 | 描述 |
ID | 比赛场次ID |
comment | 图片描述 |
URL | 图片下载地址 |
3. 历史足球比赛新闻原文数据。数量级:1万-10万;
字段 | 描述 |
title | 新闻标题 |
content | 新闻内容 |
publish | 新闻发布时间 |
entities | 新闻中出现的实体信息(包括人物,组织,地域等) |
img_url_list | 新闻图片链接 |
keywords | 从新闻中提取的关键词。多个关键词间使用逗号分隔 |
八、网络安全领域
应用背景
作为AI和网络安全防御的融合边界的探索,在过去几年中,安全和算法交叉领域的各路英豪已经展现了人工智能在网页内容分析,webshell检测,扫描爆破拦截,web攻击防御等领域的强大量。现在我们聚焦恶意文件云检测这一问题,让云计算的数据优势通过AI算法转化为行业解决方案,让病毒木马无所遁形,让“云计算”与“安全”发生新的化学反应。
恶意软件是一种被设计用来对目标计算机造成破坏或者占用目标计算机资源的软件,传统的恶意软件包括蠕虫、木马等,这些恶意软件严重侵犯用户合法权益,甚至将为用户及他人带来巨大的经济或其他形式的利益损失。近年来随着虚拟货币进入大众视野,挖矿类的恶意程序也开始大量涌现,黑客通过入侵恶意挖矿程序获取巨额收益。当前恶意软件的检测技术主要有特征码检测、行为检测和启发式检测等,配合使用机器学习可以在一定程度上提高泛化能力,提升恶意样本的识别率。
应用描述
应用提供的数据来自文件(windows 可执行程序)经过沙箱程序模拟运行后的API指令序列,全为windows二进制可执行程序,经过脱敏处理。提供的样本数据均来自于从互联网。其中恶意文件的类型有感染型病毒、木马程序、挖矿程序、DDOS木马、勒索病毒等,数据总计6亿条。
应用数据
1)训练数据(train.zip):调用记录近9000万次,文件1万多个(以文件编号汇总),字段描述如下:
字段 | 类型 | 解释 |
File_id | bigint | 文件编号 |
label | bigint | 文件标签,0-正常/1-勒索病毒/2-挖矿程序/3-DDoS木马/4-蠕虫病毒/5-感染型病毒/6-后门程序/7-木马程序 |
Api | string | 文件调用的API名称 |
Tid | bigint | 调用API的线程编号 |
index | string | 线程中API调用的顺序编号 |
注1:一个文件调用的api数量有可能很多,对于一个tid中调用超过5000个api的文件,我们进行了截断,按照顺序保留了每个tid前5000个api的记录。
注2:不同线程tid之间没有顺序关系,同一个tid里的index由小到大代表调用的先后顺序关系。
注3:index是单个文件在沙箱执行时的全局顺序,由于沙箱执行时间有精度限制,所以会出现一个index上出现同线程或者不同线程都在执行多次api的情况,可以保证同tid内部的顺序,但不保证连续。
2)测试数据(test.zip):调用记录近8000万次,文件1万多个。
说明:格式除了没有label字段,其他数据规格与训练数据一致。