为什么大数据需要一个统一的一切理论
正如我从我的飞行动态工作中学到的那样,为了安全地保持飞机飞行,您必须预测设备故障的可能性。今天我们这样做是通过将各种数据集与真实世界的知识相结合,例如物理定律。
整合这两套信息 - 数据和人类知识 - 自动是一个相对新的想法和实践。它涉及通过数据分析和人工智能将人类知识与多种数据集合,以潜在地回答关键问题(例如如何治愈特定类型的癌症)。作为一个在机器人和分布式自治系统等领域工作的系统科学家,我知道这一整合如何改变了许多行业。而且我相信我们可以做更多的事情。
例如,服用药物。如果代谢和遗传途径等关键功能的患者数据,试验数据,医学文献以及关键功能的知识可能会让我们巨大的洞察力,如果可用于采矿和分析。如果我们可以通过分析和人工智能(AI)技术覆盖所有这些数据和知识,我们可以解决当今似乎不受我们的攻击挑战。
我一直在探索这个边界,这是几年的几年 - 无论是个人和专业。在我多年的培训和继续进入我早期的职业生涯中,我的父亲被诊断出患有一系列慢性病症,当他只有40岁时开始以脑肿瘤开始。后来,一个小但不幸的车祸受到了通过无线电和化疗削弱的同一地区的伤害。然后他开发了因反复使用麻醉而导致的心血管问题,最后他被诊断出患有慢性淋巴细胞白血病。这种独特的条件组合(可用性)意味着洞察力的洞察力非常困难。我的家人和我拼命想要了解更多关于他的医疗问题,并了解他人如何处理类似的诊断;我们希望在最新的药物和治疗方面完全沉浸在最新的药物和治疗方案中,了解药物的潜在不利和副作用,了解合并症和药物之间的相互作用,并了解新医学发现如何与他的条件相关。
但是我们正在寻找的信息很难来源,并不存在于可以容易分析的形式。
我父亲的每个条件都被孤立对待,没有洞察药物互动。苯妥林 - 华法林互动只是这种缺乏洞察力的许多潜在危险之一。医生不确定如何调整我父亲的每种药物的剂量,以尽量减少他们的不利和副作用,这结果是一个大问题。
我们也没有预测接下来的预期知识。
我父亲的情况是一个可怕的常见之一。患者有两个或多个慢性病患者的案例 - 被2014年“白宫会议”的健康老龄化的21世纪挑战。在发达国家,四分之一的成年人约有两种慢性病症,超过一半的老年人有三种或更多的慢性病。在美国,2万亿美元的医疗保健行业每美元花费71美分,以便与合并症逗留。在Medicare支出中,每美元的含量上升至93¢。
和合并性对临床医生构成了巨大挑战,他必须认识到许多参与治疗这些患者的层次和复杂性。这些患者的群体被排除在大多数临床试验中。特别是,由于异质性和佩戴的可能性,设计假设试验是非常困难的,并且运行试验是昂贵的。因此,即使医学界必须严重依赖数据挖掘和机器学习算法的观测数据和分析工具。
但是,如果我们能够在医学和数据科学中形成深刻的伙伴关系,以便将大量的医学知识,患者数据和分析组成?我想知道。
随着我的家人努力了解更多关于和跟踪我父亲的医疗状况,我能够掌握一些公共医疗数据。把我的科学帽子打开,我开始使用数据分析技术在我的下班时间和周末进行这些数据集。在注意到它之前,这成为我在PARC的全日制职业。我对合并症的工作提供了这种新的数据分析方式如何工作,可以出现的伙伴关系以及它将带来的破坏性变化。
AI可以将医学知识与数据分析集成
借助新的法规和激励计划以及新的技术进步,我们可以获得比过去随时更多的数字医疗保健记录。医疗保健数据集由结构化和非结构化信息组成。存在丰富的电子医疗记录(EMR)数据集,其中包括个人和家庭病史,治疗,程序,实验室测试,大集合复杂的生理信息,医学成像数据,基因组学和社会经济和行为数据。该数据捕获各种层 - 从分子信息和基因组学中的病理生理反应,以诊断和程序到来自自定量设备的数据。
最近,我很幸运能够获得丰富的纵向住院EMR数据集,拥有超过九百万例独特的患者。我首先看看共同发生了哪些合并症,为什么,以及这些集群如何随着不同患者人口和其他协变量的函数而变化,如年龄,性别,种族,环境和社会经济因素。我应用了高级统计方法,以创建不同疾病之间的因果关系的地图。利用时间数据导致发展数学疾病进展模型。但事情并不是正确。
首先,无论EMR数据如何好,医疗数据在大多数情况下都是嘈杂的并且偏见。将患者和医生之间的口头信息交流转换为关于医学图表的书面信息以及从事EMR数据中使用的疾病(ICD)代码的书面信息的复杂性,导致巨大的编码错误。此外,不同的医院具有不同的编码质量标准。医疗索赔是EMR数据的骨干,但它们被收集以进行计费目的,这将剩下的另一个偏差源和噪声带入数据中。编码器,医院管理人员,卫生服务提供者,付款人和患者在医疗数据方面存在不同的观点和期望。医疗数据的这种多刻度性质对收集数据的方式产生了很大的影响以及将如何开采。发明算法测量和量化来自不同资源的数据质量,以及从数据过滤噪声和偏差将是使用医疗数据的不可避免的一部分。
除了数据的质量外,只有EMR数据使用更多的东西。例如,我的因果推理算法导致了合并性之间的嘈杂和经常无效的关系。我试图通过与医生和研究人员交谈来验证和解释结果,并在文学和其他数据库中审查广泛的医学知识。
经历这个过程让我到了“eureka时刻”:如果我们可以随着悠久的医学历史,我们可以自动将我们的积累体验整合在一起,我们可以:
确定有趣的,但不直观的见解,有助于健康提供者为医学研究人员有效选择适当的治疗计划假设,这些研究人员会加快患者和家庭成员有效地管理合并症的知识发现可行的信息。医学可能是不同科学分支中最长的历史之一。今天的文学和医学和制药试验的积累知识是巨大的。医学知识将继续扩大。只有当它与医学知识一起携手共进时,医学中的大数据才能给我们有趣的洞察力。寻找大EMR数据的不同疾病之间的因果关系,只有当现有的医学知识时都会导致稳健的结果,例如,糖尿病和肾病之间的因果关系,纳入了我们的机器学习算法。这一切都很棒,但挑战是医学知识在不同的本体和陈述中被捕获(文本,途径,图像等)。此外,组合医学知识是复杂的,因为每个来源描述了人类系统的不同级别。有些人可以描述高级功能,其他可以描述器官级功能,其他人可以专注于子单元,描述DNA,RNA和蛋白质。因此,这一过程的一个重要部分是发明AI机械,可以同化所有这些不同信息。
考虑我们可以从患者和科学家的角度来解决的问题类型:
病人的观点:来自患者历史的大量数据与医学知识相结合,可用于识别合并症的集群及其过去和未来的进展轨迹。然后,患者可以根据合并症和他们遵循的轨迹进行分类。这种方法将有助于患者和医生总结经验和POUT预期的内容以及哪种治疗计划是最有效的。
科学家观点:我们可以利用轨迹的共同性,为合并症与生成科学假设之间的相互作用提供证据。目标是通过成功的人工智能/机器学习和医学实现有意义和可操作的见解。为了执行数据驱动的分析,我们需要解决这些挑战,作为集成多种数据类型,处理缺失数据,处理不规则采样和偏置数据。数据和医学知识的自动整合是一个具有挑战性的,但有希望的科学问题。虽然通过使用医疗数据的计算科学家需要考虑这些挑战,但更大的问题涉及如何最好地确保所提出的假设和寻求的知识发现类型与医疗保健社区相关。
鉴于扩大的医疗数据范围,我们正在进入智能医学的新时代。机器学习是核心技术实现此开发,但对于领域专家来说,了解和信任机器学习算法的结果将是至关重要的。目前的机器学习技术会产生不透明,非直观,难以依赖于其决策过程的模型。但如果我们能够整合医疗数据和人类知识,我们可以向健康提供者和医学研究人员提供可解释的/可解释的情报。
我希望我们能够开始利用所有患者的经验的力量结合医学知识的悠久历史,以提高患者的护理质量。该过程必须在数据科学与知识守护者之间开始新一代伙伴关系。
正如我上面所说,这种方法不仅与医学世界有关。它可用于解决各种领域的复杂问题。当发生这种情况时,将以数据分析与人类知识结婚的数据分析的形式进行新的中断浪潮。