打造AI世界的基石庖丁科技深研“机器可读技术”

2018-12-04 10:16:46 来源：中央广电总台国际在线编辑：韩东林责编：韩东林

　　国际在线消息：近两年，智能技术的进步为金融市场和各行业实践带来了许多变化，其中最为突出的是机器在执行简单重复性任务以及复杂任务线性自动化过程中应用的兴起。虽然这两个领域尚未成熟，但它们都提供了改善市场运作、提高运营效率的承诺。当前，机器学习方法所面临的一大持久性挑战，即新技术推广的成败将取决于“与决策相关的数据在机器中的可读性”这一关键技术。这里的数据不仅指传统意义上的数据信息，同时也包含所有类型的大数据，包括人类自然语言所构成的描述性话语以及其中的语义和逻辑，也包括信息或数据本身所处的上下文环境。今天全球领先的机器学习方法能够从大数据中获取非常有价值的内容并催生商业价值，但前提是这些大数据必须是“机器可读”的，这样才可以将其直接输入机器，进而允许机器对其进行及时、有效、大规模地提取和应用。结构化的数据是天然“机器可读”的，而非结构化的数据我们则要将其结构化从而使其“机器可读”，结构化过程类似人们将森林大树神奇地变为饭堂木桌的过程，这其中需要有伐木、打枝、造材、集材、装车等工艺，这个过程是“机器可读”的关键与核心。

　　有业内人士表示，在探索智能化的过程中，在很多情况下，我们对于大数据和人工智能的普遍看法是不得要领的，很大程度上就是因为没有认识到“机器可读”的重要性与核心地位。就如我们很多机构都想找到合适的AI团队这个问题，大家都知道优秀的数据科学家的重要性，但对于应该如何清楚地定义“优秀”以及“数据科学家”这样的基础问题都找不到明确的答案，更不用说如何找到这样的人了。这些误解或错误在我们创新技术的应用中仍起着阻碍作用，如果不给予重视，就会对未来创新构成潜在威胁。

　　中国科学家潜心研究机器可读基础技术

　　作为庖丁算法的“灵魂人物”，中国科学院智能信息重点实验室副研究员、前惠普实验室数据挖掘研究主管，拥有数十年智能算法研究应用经验的罗平教授指出，“我们专注于对自然语言、文档表格进行结构化解析，自动构建垂直领域知识图谱，让计算机读懂人类语言内在逻辑”。

　　2018年5月，美国科学院和美国国家工程院院士、现任卡内基·梅隆大学计算机学院院长的国际顶尖人工智能专家、图灵奖得主Raj Reddy访问中国科学院计算技术研究所，与罗平教授就人工智能基础技术的发展与应用进行了深入的交谈。Raj Reddy对罗平教授在机器可读领域的突破深表认可。

　　庖丁科技领军机器可读技术，创造垂直领域商业价值

　　基于此趋势，作为以语义理解为核心技术的金融科技行业探路者，庖丁科技自2017年成立以来一直致力于让计算机读懂自然语言的内在逻辑、将AI技术与金融各垂直领域的专业知识进行深度融合的工作,努力推进机器可读技术在中国金融领域各业务线的发展。

　　虽然许多机构认为他们可能不需要结构化数据，但事实是他们确实消费了下游结果即各种可视化产品。没有结构化数据，这种消费是不可能的，而终端市场中的结构化数据来源是数据提供商手动从各类文档中提取。

　　据统计，在过去5年中，全球金融机构数据电子化存储增长了8倍（163 Zettabytes），但80%为非结构化数据，不易被机器获取和识别，同时其数据量也非传统方式所能消化。

　　作为文档密集型产业，金融行业的海量数据信息（如文字、表格、图形等）多以PDF、Word、网页等富格式文档存在，文档以电子格式存储并且可通过互联网下载并不意味着它可以被计算机算法识别或理解，特别是当文档材料被扫描，以专有格式存储，或被设置为安全模式的时候，则更难以处理。如果无法将结构化数据提供给机器，那么机器从大数据中提取的关键信息将会是一团乱麻。

　　同时，金融领域的相关文档很多具有一定的法律效应，因此金融行业对于数据的精确性和时效性都有很高的要求。目前行业内多以传统方式来收集和提取数据，企业金融信息、财务报告等数据多采用数据爬虫的方式从网上获取最新数据，再通过大量人力对数据进行整理和分类，这种半自动化构建金融知识图谱的方式缺乏时效性，全面性和准确性。

　　可以肯定的是，要使先进的机器学习算法产生独到见解，必须将非标准化、碎片化的信息，整理成标准化、相关联的金融知识图谱，即具有内在关联的结构化数据，才能真正创造价值。

打造AI世界的基石庖丁科技深研“机器可读技术”

富文本的认知计算构架图

　　具体来讲，庖丁团队运用NLP技术与人工相结合的方式对大量的金融语料数据进行标注，再将经标注的数据灌入深度学习模型，经过反复迭代使机器理解自然语言，提高准确率。

　　他们先通过卷积神经网络对段落、表格、图表等信息进行分割抽取以及类型确定。针对抽取出的文本，通过LSTM神经网络进行细粒度提取，实现从粗粒度到中粒度再到细粒度不同层次的文本语义理解。针对提取出的表格和图表，同时提取出其语义特征和视觉特征，将这些特征以庞大的数字矩阵的形式送入AI模型进行深度分析，最终将其解构并提取出语义。

　　总的来说，机器可读是对扫描件、PDF文件、word文档或网页中的不同形式的文本、段落、表格和图表运用不同的处理技术，使文档语义和内在逻辑被机器识别和理解，使金融知识图谱结构化，其智能化产品已应用于国家金融监管机构和大型头部金融机构包括监管科技，智能投行，智能资管，智能复核等多条业务线。

　　随着金融行业与人工智能技术的不断发展和渐进融合，国内外各类企业对智能化的巨大需求使市场对AI产品的接受度和认可度大幅提高。大量跨行业、跨机构的数据将被打通，而高质量、机器可读的大数据是一切智能开端的基础。庖丁科技将会持续在此领域奋力开拓，一路前行。（庖丁科技/供图编辑许炀）

分享到：

打造AI世界的基石庖丁科技深研“机器可读技术”

相关新闻

国际在线版权与信息产品内容销售的声明：

打造AI世界的基石 庖丁科技深研“机器可读技术”

相关新闻

国际在线版权与信息产品内容销售的声明：

打造AI世界的基石庖丁科技深研“机器可读技术”