如何提升数据科学
今天数据科学中最受欢迎的工具之一是开源编程语言R.简单地,R是数据的语言。在过去的20年里,世界各地的统计学家都为开源R贡献了他们的创新。这些贡献意味着开发人员可以访问大型尖端科学算法库,使得可以快速构建智能分析应用。
我们已经在新的和传统的公司中看到了R Bear Fruit的能力:挪威的ESMart系统一直在云中部署基于R基的预测模型,以帮助使用智能仪表的数据优化该国的电网。美国世纪投资正在使用R作为其定量投资平台的基础。国家天气服务在其河流预测中心中使用R来帮助预测洪水。房地产分析公司Trulia使用R来帮助预测房价。R是Twitter的数据科学工具箱的一部分,用于监控网站的用户体验。列表继续。
但尽管使用这一广泛使用,我们真的刚刚开始了解当今先进的统计平台的力量。在接下来的五到十年中,我们将在几乎所有软件应用程序,互联网设备和手机上看到机器学习和分析驱动智能。在解决这么多挑战,该行业必须确保它将正确的工具放入那些寻找这些庞大的宝宝楼的答案中的手中。
虽然R基金会有助于促进开创性的工作来支持R语言的发展和分配,但更多的是为了使全世界的开发人员能够充分利用企业中R的可能性。行业支持有三个主要领域有助于加快R的进展:
1.测试:强大的软件测试方法和基础设施,以帮助开发新版本的R包,对社区非常有益。确保高质量的释放候选人并维护向后兼容性将有助于企业内基于R的守则的可重复性和可靠性。
2.可扩展性:R的当前流行实现是主记忆有限的。但是,今天进行分析的数据集大大大于适合计算机的内存。支持使语言及其实施的努力本身可扩展将使业务更容易处理极大的数据集以充分利用这种强大的科学语言。
3.未来校样:R需要不断创新,以确保它可以继续在当前和未来的分析环境中有效,如Hadoop,Spark和下一代数据库。这也需要与世界各地的R社区和数据开发商进行持续的教育和合作努力。
R语言的统计编程的优雅和灵活性已经在金融,医疗保健,社会科学,公用事业和制造中实现了重大突破。随着对其发展的持续支持,我们可以期望在新的关联世界中看到在数据科学和统计数据中应用革命性进展。
最近宣布的R联盟(其中Microsoft是一个创始成员)在开放的开发环境中有一个使命的使命。r个联盟可以帮助r前进以快速的速度,这些速度受益于其每一个粉丝。联盟的努力将为数据科学创造一个肥沃的基础。随着技术行业的强大支持,R基金会和r联盟可以继续为今天和未来制造更好的语言所需的工作。
要了解有关R中编程的可能性,请访问R项目,查看此视频。要了解技术社区如何支持R语言,请访问R联盟。
Joseph Sirosh是Microsoft云和企业集团信息管理和机器学习(Imml)团队的公司副总裁。