Stephen Wolfram如何计划重新发明数据科学并使可穿戴物品有用(面试)
Wolfram语言将在接下来的几周内公开提供,Wolfram Research创始人Stephen Wolfram在SXSW最近的一个主题赛中承诺。
在那个主题演讲中,他展示了一些Wolfram语言的惊人权力:为了响应几乎自然语言查询,它能够解析短语并产生非常复杂的响应。一些示范的示范更加令人发指的例子,只需一行代码(通常通过迭代,交互式修改):
一系列其他Wolfram代码示例在公司的网站上。
起初,语言看起来像一个基于Wolfram Alpha的知识的高级查询语法,公司的“计算知识引擎”或我们大多数人都会称之为搜索引擎。但是Wolfram语言表明是一个强大的工具,不仅用于查询,而且用于创建交互式应用程序并将它们集成到其他软件和网站上。
在谈话后不久,我们坐下来坐下来的Wolfram进行了一个小时的采访。在下面的第一部分,我们讨论Wolfram语言,它适用于可穿戴物和企业数据科学需求,以及Wolfram自己的生命记录努力。
阅读本面试的第2部分:在Stephen Wolfram的未来,“一盒万亿灵魂”将创造任何我们想要的宇宙
VidtureBeat:您的谈话清除了我对Wolfram语言的一些问题。它听起来像像Python或Java这样的语言,在那里您可以在那里创建任何想要的东西。
以上:Wolfram的代码库中的一些样本。
图像斯蒂芬沃法姆:您可以创建任何您想要的东西。你只是从更高的门槛开始,更高的抽象。
让我们从我们所知道的语言开始,这是人类的自然语言。这是一个非常丰富的事情。它拥有一定数量的知识。
计算机语言,当他们起源于20世纪50年代等时,他们必须更简单。早期计算机语言的原始思想是将包装器放在机器的内在操作周围。基本上,专业化的[计算机]语言是更好,更好的是,人们可能不公平地称之为官僚主义。换句话说,您正在构建更大和更大的程序。这些程序都非常低,但您正在管理。你进入了数百万的代码和类似的东西。
即使在20世纪50年代又回来了,人们对制作更高水平语言的想法比机器正在做的更高的语言。Lisp是一个例子。APL是另一个部分示例。那个时候它并没有很好地工作。
现在发生的事情是,不仅我们在机器之间拥有大层次抽象以及我们编写代码,但我们可以做另一个非常有趣的事情。我们将所有这些算法和所有这些知识放入语言中,有点像人类自然语言发生的事情。
我们也可以利用来自我们语言的人类自然语言的东西。
什么是语言?一种语言是表达事物的手段。我们在该得分有一个非常大的复选标记。
如果你说,“你能在wolfram语言中为'循环写一个'循环吗?”当然,你可以写一个'for'循环。这是一个愚蠢的事情,但你可以做到。已经知道C,Java或类似的人,在[Wolfram]语言中,有一定的倾向于写“”循环。你可以做到这一点,但这是错误的事情。有一定数量的无学习,最终是必要的。
从这种意义上讲,如果我们对语言的定义是“为”循环的事情,并且不得不涉及这种非常低级的程序接近创造功能的程序方式,那么技术历史就会是一个令人失望的时刻。
最终,我们想要用语言做的是我们想要表达自己并获得我们想做的事情。我的理论是我们可以通过系统自动完成的理论,对我们来说更好。
VidtureBeat:但是Wolfram语言有一个API,因此您可以将过程部署到云。您可以解决这些程序并与他们交互。您可以将它们嵌入Java程序和Python等。
钨:其中一个目标是处理策划世界。策划世界涉及了解存在的所有化学品。它还涉及了解存在的所有编程语言,并能够与这些东西进行接口,并知道存在的所有连接设备,也能够与这些类型接口的东西。它真的使用相同的元方法,但适用于所有这些不同的区域。
其中一个后果,一个实际后果,是是的,我们是一个非常令人难以置信的技术,所以说话。
可穿戴设备和数据
VidtureBeat:您拥有正在收集数据的所有可穿戴设备的策划列表。据推测,这将让您在某些时候与这些设备接口,正确?
以上:Wolfram设备项目跟踪的一些设备。
图像钨:是的。这是一个凌乱的层。有一个千禧富公司。
[现在的问题是,]“我们将从设备从设备到'如何与云接触?”“我希望他们都赢了,因为那么我们不必建立那个层。[笑声]
我们已经建立了那个层的某部分,但是,老实说,这不是我们最感兴趣的东西。我们最感兴趣的是,在与云联系后,发生了什么?该设备使网页联系。那么数据会发生什么?
一旦它可以制作Web联系,[设备]将某些东西发送到Web,就会发生典型的事情。它会去一些网址。在URL的查询字符串中,它可以坚持生成的数据。
一旦它可以这样做,一旦它可以以某种方式与网关交谈,那么我们的目标就是能够从那里接管并用它做有趣的事情。将该数据轻松获取到我们的云中。
我们有云基础架构。我们有这个即时API机制,因此很容易创建这些设备可以与之交谈的API。我们拥有这个WDF系统,这个Wolfram数据框架系统,这是一种方式[Canonize]所有这些设备都在生产的所有这些不同类型的数据。
如果您穿着六种不同类型的健康指标和个人分析跟踪操作,他们正在衡量各种不同的东西,我们有一个规范形式,所有这些东西都可以映射到我们可以从中映射到。问题是,你用它做什么?
我们的数据科学平台,概念是能够占据大量数据并与之做出事务。其基本工作流程是,数据出现,分析发生,报告熄灭了。它相对于以下方式有点广泛化。
当数据出现时,我们有一些非常好的技术,用于找到数据有趣的东西。您可以生成无休止的图表和图表和表以及关于数据的事项。我们有很好的方法,弄清楚了可能是你所说的事情,“哦,这是我数据的一个有趣的特征”,因为你对世界知识了很多,因为我们有很好的算法来处理实际原始数据。第一步是自动数据分析。
第二步是从中获取输出,你说,“好的,如果我知道如何编写代码,我想在各种方式定制这个;而且我将从系统中编写自己的特殊可视化或其他无论如何。“
然后从那里你去,你说,“好的,我想要的输出是一个报告”,因为这是你最终想要的典型输出。然后,我们有这种方式使这个符号文档模板为报告制作,这是一个非常好的机制,它允许您将这些数据基本上流入报告的交互式文档,然后您可以生成该数据。
你可以只是说,“每周一早晨就把[报告]制作,并用电子邮件发送给我。”您还可以将其漫步到我们的即时API之一并说:“转到此API,然后您将生成报告。”该API可以键入某些自定义ID,或类似的内容,这可能是该特定客户或其他内容的报告。
通过自然语言的数据科学
VidtureBeat:您在主题演讲中显示的许多例子是基于公共数据,前苏联共和国的资本或其他东西。你处理私人数据的模型是什么样的,就像我自己的葡萄糖阅读?
钨:有几种不同的型号。对于个人数据,显然您有一个帐户,它在我们的云中,您可以上传信息,并且它将以与其他所有云公司处理的方式相同:在Wolfram自己的云中。
现在,将有消费者公司使用我们的云基础架构,并希望自己的私人实例。它基本上只是我们整个云基础设施的私人实例。这是我们的技术,他们的云,所以说话。
在更多的企业案例中,通过我们的数据科学平台,我们能够在连接到某人已经拥有的本地数据库的私有云中运行。我们认为我们有一个非常好的方法来将大量数据库内容映射到符号表示中,这真的很容易在我们的语言中操纵。
VidtureBeat:我可以将我的mysql数据库或我的hadoop数据存储挂载到Wolfram可以解析和使用的格式?
以上:您可以从Wolfram语言中执行SQL查询。
图像钨:是的,所以有四个层次的层次结构,我们试图处理所有这些。
一级是内存,这意味着它足够小[那]它将在内存中操纵。这是一个粗壮的千兆字节或一些数据 - 顺便说一下,这是一个人的实际拥有的很多。
第二级是,但它在磁盘上的文件中,并以块的方式进行操作。
第三级是它在数据库中,一个单一的数据库,然后我们有效地将符号语言转化为一堆SQL查询,获取结果,并将其带入符号层[WOLFRAM语言中的符号层]。
[第四级]是分布式的东西,例如Hadoop。我们已经有一段时间的Hadoop链接了一段时间,我们在内部用于我们自己的Web Analytics内容。如果我记得正确,我认为它在Github上。
肯定有人拥有真正的数据,Petabyte大小的数据集,但是有一个可怕的很多人拥有技嘉大小的数据集。我们可以使用技嘉大小的数据集进行一些非常有趣的事情,我们逐渐朝着Petabyte大小的数据集工作。我们的目标是使这四个层次的层次结构基本上是无缝的,以便您与系统进行交互,它将决定它是否将其存储在内存中或将其放在文件中,依此类推。
对我们处理数据的方式真正有趣的另一件事不仅是指代表询问和事物的象征语言;我们还可以使用自然语言来表示查询,这是我们将无法想象的正常预留所可能的疑问。
在那里非常有趣的是,当您拥有企业数据库时,它有一些架构,它有它的名称,我们必须基本上解析这些名称将能够制作自然语言查询。所以会有一些领域的Job_title,或者的东西。这可能是一个相当简单的领域来理解,但随后有人会产生一种自然语言查询,说:“在任何公司都有金融的人”,你必须淘汰这意味着什么。这是此数据库中的Job_Title字段。
整洁的事情是我们有技术堆栈来做这件事。我们将看到这些大型企业数据库各种事物的全自然语言查询能力。
VidtureBeat:公司数据科学人员可以使用WOLFRAM构建一个简单的自然界面来陪同数据,然后将首席执行官或营销人员可以查询和说,“向我展示每年支付超过10万美元的客户,我们没有谈过过去90天。“
钨:这是正确的。这实际上会有效。[笑]
正如您可以从该演示[在SXSW]中看到的那样,它非常容易将其部署为应用程序,只需在那里有一个字段并键入它。
我们正在建造的数据科学平台,它的一个核心客户群是称自己为“数据科学家”的人。这将为他们提供更简化的方式来完成工作的方式,以更有效的方式部署他们在整个组织中所做的事情。
另一个方向是设备公司。“我们有一个设备。我们将拥有一堆消费者。我们如何将该设备与消费者的数据传达给消费者?“这是一个略有不同的用例。
一个案例是一个相当少量的数据科学家,在公司的同时处理相对少量的高管,而在另一个情况下,它可能更少的数据,但它正在处理更多的人,等等。我们这两个东西都很容易让我们在我们建造的系统中处理。
顺便说一下,就我希望我们创造的机会而言,我实际上认为最大的早期机会是我们的编程云。我的理论是世界上有大量的融合算法初创性。换句话说,有人有一个想法。我知道一群这样的人,谁是一个随意教授的地方,谁一直在研究一些或多年。他们知道如何做任何事情。他们知道算法。也许他们甚至在过去编写了Mathematica代码,以运行该算法。问题是“他们如何部署它?”
现在,获得一个生产网站,能够为此做所有管道,所以相当困难,而且它是一个不同类型的技能,而不是了解一些算法的人的技能。
即将发生的事情,在接下来的几年的孵化器中看到它会非常有趣,是很多有算法想法的人可以实际部署它很容易。我会有兴趣了解人们提出了什么。
生活伐木洞察力
VidtureBeat:你穿着衬衫穿的东西,那是什么?
以上:一个叙事剪辑,以前被称为memoto的救生摄像头。
图像钨:这是一件寿命记录的东西[叙事剪辑,以前称为Memoto],可能现在已经用完了电池。
VidtureBeat:你如何使用它?
钨:我不经常使用它。我在上一个SXSW中获得了这一版本的第一个版本,昨晚我以为去年我会审查我在谈话中所做的事情,而且我在我有一个Wolfram语言狼象上面找到了第一次屏幕。
这对我来说很有意思,因为我收集了大量数据。贸易展示的事情是穿这件事的一个非常好的地方,因为那么只是审查我看到的东西是微不足道的。
但是我在日常生活和时代找到了......首先,我是一个偏远的首席执行官,他们主要在手机上,整天看电脑屏幕。
VidtureBeat:这是一个非常无聊的生活日志。
钨:实际上,当你完成所有这些个人分析的东西时,它有点可怕,就像物理系统的操作是多少人。我们从Facebook数据中完成了许多此个人分析,您只需获取这些曲线。
对自己来说,我有自己的所有这些数据,而虽然有很多东西和大量的东西,但整体画面,曲线非常平滑:“这是我每天去睡觉的时候,那个时候,加15分钟,”这是非常[仪式的]。
VidtureBeat:我还没有从我自己的寿命记录中学到任何东西。我收集了你的数据越来越大,但到目前为止我唯一学到的是我睡觉的小时之间存在略有的负相关,我消耗的咖啡因数量是显而易见的。换句话说,您可以收集大量数据,并且可能不会导致事实上的任何问题。
钨:我同意你的看法。
我收集了20年的数据而不进行任何分析。我想我拥有任何人都有最大的个人分析数据集合,这让我感到惊讶。我期待我会听到那些说的人“哦,我得到了比你所拥有的更多,”但我没有。
我会说,如果你在一年内再次向我问我真正学到的东西,当我们建立了一些更多的工具很容易能够[查询它],我想我会有更好的话要说。
就像这是一个例子。我想知道不同的计算机键盘是否使用允许的键盘,不同的键入速度或b,不同的错误率。一个简单的问题。我清楚地有数据来回答这个问题。对我来说,这是一点点痛苦。我最终经历了并回答了它,但在这一点来说,我对我回答这个问题完全琐碎,我可以在30秒内得到一个答案,我会问这个问题,然后我会学到一些问题。这并不重要,但我可能在键盘上键入比另一个速度快五个百分点。
我认为当我们降低障碍来获得这些问题时,更多的事情会变得有用。
你可以对类似Web搜索这样的事情说同样的事情。我曾经在20世纪70年代后期使用所有这些在线数据库系统等,这是一种痛苦的使用。我去了使用它们的麻烦。除了图书管理员外,我几乎没有其他人认为,除了图书馆员,曾经用过这些东西,你可能已经说过,“很好,你可以从所有这些东西中得到任何有用的东西。这对少数图书管理员来说只有很好,“等等,但这不会是真的。
重要的事情让它真的很容易做到这一点,希望我们有一些好工具。
明天:Wolfram对计算,机器人和人类命运的未来的预测。