网络安全是AI和ML的下一个边疆
在Ping进入网络安全之前以及行业如何使用AI之前,让我们先定义术语AI。人工智能(AI)今天使用,是总体概念涵盖机器学习(监督,包括深度学习和无人监督),以及其他算法方法,这些方法不仅仅是简单的统计。这些其他算法包括自然语言处理(NLP),自然语言理解(NLU),强化学习和知识表示的领域。这些是网络安全最相关的方法。
鉴于这种定义,在使用AI和ML方面的网络安全产品是如何发展的?
我看到了越来越多的网络安全公司以某种方式利用ML和AI。问题是在多大程度上。我之前写过算法的危险。对于任何软件工程师来说,任何软件工程师都太容易了解数据科学家。它与下载库并调用.start()函数一样简单。挑战在于,工程师通常不知道算法中发生的内容以及如何正确使用它。算法是否使用非正常分布式数据?在将数据转换为算法之前,常规化数据如何?应该如何解释结果?我在黑帽谈了一个谈话,在那里我展示了当我们不知道算法正在做什么时会发生什么。
以上:从Blackhat 2018举行谈论为什么算法危险地显示出通过盲目使用AI出现问题。
因此,公司在其产品中使用AI或ML的仅仅是产品的良好指标实际上是实际做点智能的良好指标。相反,我所看到的大多数公司声称使用AI对于某些核心能力,以某种方式,形状或形式做到了“错误”。要公平,有一些公司可以坚持正确的原则,雇用实际数据科学家,正确应用算法,并正确解释数据。
如何在安全性中使用AI
一般来说,我看到AI在监督机器学习营的正确应用程序,其中有很多标记的数据可用:恶意软件检测(从恶意软件中讲良性二进制文件),恶意软件分类(将恶意软件归因于某些恶意软件系列),文档和网站分类,文献分析和对网络钓鱼的自然语言理解。在线(或社交网络)分析进行了一些早期但有希望的工作进行通信分析。但是你需要很多数据和上下文信息,这并不容易掌握。然后,有几家公司正在使用信仰网络来模拟专家知识,例如,对于事件分类或内幕威胁检测。但不幸的是,这些公司是十几个。
这导致我们进入下一个问题:安全性的最高用例是什么?
我个人兴奋地兴起了几个领域,我认为展示了一些承诺推进网络安全的努力:
使用NLP和NLU了解人们的电子邮件习惯,然后识别恶意活动(BEC,网络钓鱼等)。最初我们试图在消息数据数据上运行情感分析,但我们很快意识到我们应该将其留给促进品牌情绪的推文,避免使人(或网络钓鱼)行为判断。这对此有点太早了。但主题建模,令牌分类等账户编号的令牌分类存在一些成功,甚至希望使用语言的使用.LEVERAGING图形分析来映射数据移动和数据谱系,以便在发生exfiltration或恶意数据修改时学习。这个话题尚未得到研究,我不知道任何公司或产品才能刚刚做得好。这是许多层次的难题,从数据收集到重复数据删除和解释。但这也是使这项研究有趣的原因。鉴于上面的内容看起来不像我们在AI中取得了很大的进步。这是为什么?我将它归咎于一些事情:
访问培训数据。我们想出的任何假设,我们都必须测试和验证。没有难以做到的数据。我们需要复杂的数据集,这些数据集显示了应用程序,数据和云应用程序的用户交互以及关于用户及其数据的上下文信息。这种数据很难得到,特别是隐私问题和规定,如GDPR在研究工作周围的过程中投入更多的审查。缺乏了解数据科学和安全的工程师。我们需要有很多经验的安全专家来解决这些问题。当我说安全专家时,这些是人们深入了解操作系统和应用程序,网络和云基础架构的深刻理解(和实践经验)。不太可能找到这些也有数据科学剁的专家。将它们与数据科学家配对有帮助,但是在他们的沟通中迷失了很多。很少有公司正在做真正的安全研究。采取更大的安全公司。他们可能会做恶意软件研究,但其中有多少人有研究新颖方法的实际数据科学团队?微软有一些伟大的研究人员致力于相关问题。美国银行有努力为学术界提供资助,以便为他们迫切努力。但这一般普遍看不到你的货架安全产品内的一天的光线。通常,安全供应商不投资于与其产品直接相关的研究。如果他们这样做,他们希望看到相当快地转身。这就是初创公司可以填补空白的地方。他们的挑战是使他们的方法可扩展。意义不仅仅是缩放到大量数据,而且在各种客户环境中也相关,其中几十个突然进程,应用程序,使用模式等。这与数据问题完整圈子。您需要来自各种不同环境的数据来建立假设并测试您的方法。安全买家应该有什么不同的东西,以便激励安全供应商在AI中做得更好?
我不认为安全买家应该归咎于任何东西。买方不必知道安全产品如何工作的任何了解。产品应该做他们声称的那样,做得很好。我认为这是安全行业的凡人罪之一:建造太复杂的产品。正如Ron Rivest在另一日在一个小组上说:“复杂性是安全的敌人。”
Raffael Marty是一位科技执行,企业家和投资者,以及关于人工智能,大数据以及网络安全市场周围的产品景观。