加快数据洞察的速度

案例分析:美光使用数据和人工智能来发现、倾听和感觉

内存芯片制造商美光科技的所作所为远远超过只是空谈人工智能为工业带来的诸多优势。在自己的制造流程中使用数据分析和人工智能,公司确实是言出必行,展示了美光通过其下一代存储器和处理解决方案实现的技术对业务的价值。好处很多,包括产量更高、工作环境更安全和效率更高。

美光的工厂通过高度复杂和精确的工艺在硅晶圆上生产存储技术。出错和浪费的可能性很高,但数据和人工智能正在帮助我们减少这种可能性。依靠人类的警觉性来发现和跟踪缺陷、机械问题和其他潜在的麻烦问题时,公司损失了如使用当今先进技术本可能避免的金钱。

制造过程

硅晶圆是计算机芯片的基础,由二氧化硅(一种沙子)制成,必须过滤并精炼到 99.999% 的纯度。将这种电子级硅熔化并压缩成锭,将其切成极薄的的晶圆,厚度为 0.67mm。

晶圆被抛光以磨去任何切割痕迹,再涂上一层薄的耐光材料,并使用类似于摄影的工艺蚀刻出它们将支持的电路设计。电路越复杂,印刷到晶圆上的图像越多,层层叠加,每层用离子化等离子体单独处理,例如,采用一种称为“掺杂”或在金属中浸渍的工艺。

在测试(“探测”)之前,用薄膜涂覆完成的晶圆,以确保其按预期工作。

整个制造过程可能涉及约 1,500 个步骤,并且在无菌清洁制造室中进行,旨在防止即使最微小的灰尘落在原始晶圆上。但还是会发生损坏。脆弱的晶圆可能出现划痕、切口或被刺破,或者可能在保护膜下形成气泡。

“事实证明,结果比工程师评估准确得多,”美光 IT 总监 Tim Long 说。

通常,这些缺陷非常微小,肉眼完全看不见。即使它们是可见的,扫描在摄影成像过程中为每张晶圆拍摄的 30 到 40 张照片,也可能由于人眼睛疲劳或瞬间疏忽而忽略缺陷。一眨眼就漏掉了。

如果在“探测”阶段之前没有发现问题,则会浪费大量时间和金钱。机会在于,导致这个缺陷的问题会影响多个晶圆 - 甚至数千个。

生产中的其他东西也可能出错。零件磨损;管道泄漏,或将危险化学品滴到产品或人身上。尽早捕捉和纠正这些问题势在必行:根据美光专家的说法,停工费用昂贵,平均每小时损失 25 万美元,鉴于半导体制造业的复杂性,花在恢复生产上的许多时间使得真正的成本达到数百万美元。更重要的是,与工伤有关的风险是多方面的。

检测产品和机器中的问题对于制造效率、有效性和安全至关重要。不幸的是,人类肯定会出错,即使训练有素的人也会失误,错过看到、听到或感觉到非常微小和微妙地表明某些地方出错了的迹象。 然而,人工智能技术可以在很短的时间内非常精确地执行这些任务。美光从全球 8000 多个来源和 500 多台服务器收集到数拍字节的内部制造数据,并将这些信息添加到Apache Hadoop中用于数据挖掘的两个不同环境地图中。公司的数据科学家通过上述制造网络搜索这些数据,以获得有关 AI 和机器学习开发模型的见解,从而改善和增强工厂流程。 模仿我们的视觉、听觉和触觉,其结果令人如此印象深刻 — 所以在 2018 年,他们为美光赢得了令人垂涎的 CIO 100 奖,该奖项颁发给 IT 领袖。

视觉:晶圆成像

晶圆缺陷有多种形式。然而,在大多数情况下,它们属于几种常见类别之一:晶圆边缘附近的小孔、划痕和外膜中的气泡。美光的 AI 系统使用“计算机视觉”技术在光刻相机捕获的图像(在制造期间将电路蚀刻到晶圆上)上发现这些缺陷。

例如,工程师可能会指示系统扫描晶圆边缘的微小点(孔),或者连续或略微折断的线(划痕),或寻找导致暗点或亮点或图案的颜色变化。可以近乎实时地发现部分这些缺陷,系统在拍摄图像后 10 秒内发出警报。在存储照片 15 分钟后,第二次扫描期间可能会发现其他缺陷。所有这些过程都依赖于使用存储在 Hadoop 环境中的 200 万个图像的 AI 系统进行比较和对比。

“事实证明,结果比工程师评估准确得多,”美光 IT 总监 Tim Long 说。

“计算机视觉精度高而且效率高,”他说,“而且它扩展了我们工程师的能力。我们的工程师可以专注于问题和收集数据。”

并且通过美光的 AI 自动缺陷分类 (ADC) 系统,技术人员和工程师不再需要在 Hadoop 中手动分类晶圆缺陷。相反,AI-ADC 使用深度学习,每年对数百万个缺陷进行排序和分类。美光使用当今最新的成像技术创建了这个系统,包括神经网络这种描述为仿生的编程范例,使计算机能够从所观察到的数据中学习。

China Case Study 2

这种形式的机器学习根据图像的缺陷为其分类,并将其放在离散的 Hadoop “集群”中。这个过程不仅可以帮助工程师发现制造过程中出现的问题,从而尽早修复,以避免出现更多缺陷,而且它可以使 AI 系统自行发现缺陷并在每次迭代时优化结果。

“无需告诉系统在哪里查找或要查找什么内容,”美光晶圆厂数据科学经理 Ted Doros 说。“给它一些例子并告诉神经网络:‘这就是你需要找到的东西。’”

“此过程通过微调我们的方法来提高产量。我们微调得越多,问题就越少。”

听觉:声学听力

汽车出现机械故障的第一个迹象是什么?通常是来自引擎盖下的异常噪音。在工厂中也是如此,那些被认为是异常的声音可能意味着磨损部件或即将发生故障。

然而生产工厂的噪声可能很大,而使问题的声音被此掩盖。或者也许工人在一个地方待的时间不够长,不足以区别什么是“正常的”而什么不是。

美光的 AI 系统通过安装在机器人致动器附近或靠近泵的音频传感器听到其工厂机器的异常现象。这些麦克风可以连续几周记录运行活动,软件将检测到的频率转换为将声音描述为视觉数据的图形或图表。当出现新音调或频率时,系统将发出警报。通常它甚至可以分辨异常的原因。

Doros 将工厂的多种声音比作管弦乐队,支持声学听力的机器比作指挥家。

“你拥有所有这些乐器,当你微妙地改变生产线中堆积的化学物质时,就像,比方说,如果你有一个法国号角,音乐家稍微打开一个阀门,它会改变音高和整个乐曲。”听众也许听不出这种变化,但指挥家不会。

“计算机视觉精度高而且效率高,”他说,“而且它扩展了我们工程师的能力。我们的工程师可以专注于问题和收集数据。”

为了建立这个“声学听力”AI 系统,美光工程师用在初始监测阶段收集的数据在 Hadoop 中创建了一个基线。接下来,他们扫描文件中的异常声音,并根据原因分类,将它们放置在离散的组或“群集”中。收集、检查和分类的文件越多,结果就越准确,而且系统检测和诊断异常声音及其成因的能力就越强。

搜索这些海量数据库可能非常耗时。但当机器存在故障危险时,工厂经理需要立即知道。

将数据发送到装满美光内存和存储器的 GPU 系统,该系统拥有 48000 个处理核心和数兆兆字节的内存,可以提供快速,智能的结果 - 比基于CPU的系统快得多。所有这些 GPU 内核和内存同时协同工作,只需很少或无需人工干预即可在转瞬之间改善其结果,并在每次迭代时改进其诊断,类似于人类大脑的工作方式。

“GPU 的一个关键优势是,CPU 可能在一块芯片上有两个或四个处理器内核,每个内核每次只完成一件事。GPU 有几千个内核。它可以并行处理几千件事情,”美光高级研究员 Mark Helm 说。“对于 AI 工作负载而言,这正是你所需的。

你并不希望 CPU 执行非常复杂的机器学习算法。GPU 会将它分解成许多非常小的部分并行执行,在这成千上万内核中的每一个都同时工作。GPU 处理在决策时间上提供了难以置信的优势。

热成像:感觉热度

并非每次故障都会产生噪音 - 在制造环境中,沉默可能是致命的。相反,在很多情况下发生温度变化。机器可能会升温、泵或管道可能会冷却,在发生泄漏的地方蒸发冷却从而失去热量。

直到最近,检测温度激增的唯一方法是看到红光、火花或烟雾。当出现这些现象时,问题已经进入危险区域,并且工厂需要疏散工人。如前所述,停机是非常昂贵的,更可能危及人身安全。

冷点也可能表明存在问题,但这些都没有明显的迹象。而用手感受热度波动很危险,所以是不切实际的。

然而,人工智能越来越可以通过分析产生工厂环境“热区图”的红外照片来发现温度异常。美光叠加正常工作条件下创建的图像,并将它们放在晶圆厂的数字双胞胎上,这是工厂的虚拟复制品。这些图向 AI 系统提供用于比较红外图像的基线。当系统检测到偏差时,即发出警报。

“这是关于改造企业,而不仅是车间,”Doros 说。“我们可以将这些技术和方法引入公司内的所有业务流程。”

运用热成像在美光仍处于初级阶段,因为它能够在机器发生故障或严重损坏之前,及早发现即将发生的故障,因此其节约成本的潜力巨大。早期检测可以区别是进行简单维修还是更换整个昂贵的设备。 此外,它在保护工人方面起到关键作用,而美光最重视的就是工人。与利润相比,公司更重视其团队成员的安全,因此公司继续大力投资那些能够改善在问题变得危险之前即可检测到问题的技术。 “如果它看上去似乎是‘这里的泵有高风险’,如果它存在热量丢失问题或有火花,我希望马上知道,并且我要通知该地区的人撤离,”Doros 说。

尽早发现机械问题是热成像的首要目标,但公司也使用该技术来优化制造系统和工艺。系统可用性是美光晶圆生产过程中成本最高的因素之一,Doros 说。系统关闭会减少可用于晶圆制造的工具。当晶圆产量下降,晶圆厂整体运营成本就会上升。未检测到工具故障也可能导致晶圆损坏,这也增加了成本。

Doros 说,在理想情况下,美光会为每个晶圆厂中的每件工具创建热成像,并实时查找温度过高或过低的所有地方。后续的微调工作很可能提高产量,从而降低每片晶圆的生产成本。

好处众多:

美光在工厂中使用 AI 来发现、倾听和感觉,目前已经取得了令人映像深刻的成果:

  • 成熟投产时间加快 25%
  • 产量增加 10%,并且
  • 质量事件减少 35%。

数据分析和 AI 的优势从晶圆厂扩展到美光运营的各个方面:销售和市场、人力资源、业务运营、研发等。

“这是关于改造企业,而不仅是车间,”Doros 说。“我们可以将这些技术和方法引入公司内的所有业务流程。”

例如,深度学习明显改善了产品需求预测,将准确度提高了 10% 到 20%,Doros 说。

公司主要关注人工智能和数据分析的工业流程,承诺其工厂作为真正“智能”的信息物理系统运行,只需最少人为干预。

随着 5G 蜂窝网络、虚拟和增强现实、物联网、AI 和数据分析等技术进步越来越快 — 由美光自己的内存和存储解决方案辅助开发 — 实现这一承诺已经为期不远了。

“AI 包括很多东西,”Long说。“它实际上描述了诊断功能,以及我们如何使用机器学习算法创建它们。我们重现人类感官 - 听觉、触觉、视觉 - 通过提供算法数据,并使用历史记录作为上下文来教授我们的系统。然后,机器将观察并学习其模式,这样,它们就能自己得出结论。”

+