网络安全是AI和ML的下一个边疆

在Ping进入网络安全之前以及行业如何使用AI之前，让我们先定义术语AI。人工智能（AI）今天使用，是总体概念涵盖机器学习（监督，包括深度学习和无人监督），以及其他算法方法，这些方法不仅仅是简单的统计。这些其他算法包括自然语言处理（NLP），自然语言理解（NLU），强化学习和知识表示的领域。这些是网络安全最相关的方法。

鉴于这种定义，在使用AI和ML方面的网络安全产品是如何发展的？

我看到了越来越多的网络安全公司以某种方式利用ML和AI。问题是在多大程度上。我之前写过算法的危险。对于任何软件工程师来说，任何软件工程师都太容易了解数据科学家。它与下载库并调用.start（）函数一样简单。挑战在于，工程师通常不知道算法中发生的内容以及如何正确使用它。算法是否使用非正常分布式数据？在将数据转换为算法之前，常规化数据如何？应该如何解释结果？我在黑帽谈了一个谈话，在那里我展示了当我们不知道算法正在做什么时会发生什么。

以上：从Blackhat 2018举行谈论为什么算法危险地显示出通过盲目使用AI出现问题。

因此，公司在其产品中使用AI或ML的仅仅是产品的良好指标实际上是实际做点智能的良好指标。相反，我所看到的大多数公司声称使用AI对于某些核心能力，以某种方式，形状或形式做到了“错误”。要公平，有一些公司可以坚持正确的原则，雇用实际数据科学家，正确应用算法，并正确解释数据。

如何在安全性中使用AI

一般来说，我看到AI在监督机器学习营的正确应用程序，其中有很多标记的数据可用：恶意软件检测（从恶意软件中讲良性二进制文件），恶意软件分类（将恶意软件归因于某些恶意软件系列），文档和网站分类，文献分析和对网络钓鱼的自然语言理解。在线（或社交网络）分析进行了一些早期但有希望的工作进行通信分析。但是你需要很多数据和上下文信息，这并不容易掌握。然后，有几家公司正在使用信仰网络来模拟专家知识，例如，对于事件分类或内幕威胁检测。但不幸的是，这些公司是十几个。

这导致我们进入下一个问题：安全性的最高用例是什么？

我个人兴奋地兴起了几个领域，我认为展示了一些承诺推进网络安全的努力：

使用NLP和NLU了解人们的电子邮件习惯，然后识别恶意活动（BEC，网络钓鱼等）。最初我们试图在消息数据数据上运行情感分析，但我们很快意识到我们应该将其留给促进品牌情绪的推文，避免使人（或网络钓鱼）行为判断。这对此有点太早了。但主题建模，令牌分类等账户编号的令牌分类存在一些成功，甚至希望使用语言的使用.LEVERAGING图形分析来映射数据移动和数据谱系，以便在发生exfiltration或恶意数据修改时学习。这个话题尚未得到研究，我不知道任何公司或产品才能刚刚做得好。这是许多层次的难题，从数据收集到重复数据删除和解释。但这也是使这项研究有趣的原因。

鉴于上面的内容看起来不像我们在AI中取得了很大的进步。这是为什么？我将它归咎于一些事情：

访问培训数据。我们想出的任何假设，我们都必须测试和验证。没有难以做到的数据。我们需要复杂的数据集，这些数据集显示了应用程序，数据和云应用程序的用户交互以及关于用户及其数据的上下文信息。这种数据很难得到，特别是隐私问题和规定，如GDPR在研究工作周围的过程中投入更多的审查。缺乏了解数据科学和安全的工程师。我们需要有很多经验的安全专家来解决这些问题。当我说安全专家时，这些是人们深入了解操作系统和应用程序，网络和云基础架构的深刻理解（和实践经验）。不太可能找到这些也有数据科学剁的专家。将它们与数据科学家配对有帮助，但是在他们的沟通中迷失了很多。很少有公司正在做真正的安全研究。采取更大的安全公司。他们可能会做恶意软件研究，但其中有多少人有研究新颖方法的实际数据科学团队？微软有一些伟大的研究人员致力于相关问题。美国银行有努力为学术界提供资助，以便为他们迫切努力。但这一般普遍看不到你的货架安全产品内的一天的光线。通常，安全供应商不投资于与其产品直接相关的研究。如果他们这样做，他们希望看到相当快地转身。这就是初创公司可以填补空白的地方。他们的挑战是使他们的方法可扩展。意义不仅仅是缩放到大量数据，而且在各种客户环境中也相关，其中几十个突然进程，应用程序，使用模式等。这与数据问题完整圈子。您需要来自各种不同环境的数据来建立假设并测试您的方法。

安全买家应该有什么不同的东西，以便激励安全供应商在AI中做得更好？

我不认为安全买家应该归咎于任何东西。买方不必知道安全产品如何工作的任何了解。产品应该做他们声称的那样，做得很好。我认为这是安全行业的凡人罪之一：建造太复杂的产品。正如Ron Rivest在另一日在一个小组上说：“复杂性是安全的敌人。”

Raffael Marty是一位科技执行，企业家和投资者，以及关于人工智能，大数据以及网络安全市场周围的产品景观。