深度文本分析(Deep Text Analytics, DTA)是一种从非结构化数据中提取信息的方法。它结合了机器学习和自然语言处理技术知识图使算法不仅能处理单词,还能理解底层概念及其上下文,从而更好地分析文本。
Gartner预测:“到2024年,在自然语言技术(NLT)项目中使用图表和语义方法的公司将比那些不使用图表和语义方法的公司减少75%的人工智能技术债务。”
Gartner公司:“预测2020:人工智能——生产之路(安东尼·马伦等人,2019年12月)
文本带来的挑战
人类的语言能力是独一无二的。它是我们社会和商业互动的核心。语言使我们能够相互交流、合作、协商和交流。它是我们用来捕捉经验和分享知识的工具。我们的法律、法规、信息、纠纷和商业交易都以文本形式记录下来。
人类产生的文本数量呈指数级增长,其中许多是有价值的商业信息。因此,处理大量文本、从中获得见解、组织、连接、理解以及利用文本回答问题的能力至关重要。
这就是我们采用深度文本分析方法的地方。使用语义知识图,自然语言处理而机器学习,我们可以有效地从大量的数据中提取和分类信息。这种方法克服了其他方法的许多限制,这些方法具有类似的目标,但由于缺乏文本上下文处理能力而仍然不精确。
文本挖掘和自然语言处理的局限性
你可能听说过文本挖掘,使用自然语言处理(NLP)技术从文本中提取信息的过程。使用文本挖掘,通常会处理大量文档集合,以发现新的相关信息或帮助回答特定的问题。其目的是识别、提取和结构事实、关系和断言,以便它们可以作为文本数据被机器进一步处理。
文本挖掘生成的结构化数据可以在语义数据结构、数据目录或作为数据分析的商业智能仪表板中重用。
缺少上下文:然而,大多数文本挖掘方法主要基于统计过程,这些统计过程缺乏任何可以通过本体传达的背景知识,分类法或知识图表。简单地说,这意味着系统在文本中搜索单词并计算它们出现的频率,以及这些单词的相关度(例如,通过计算所谓的相关度)TFIDF),以及这些词是如何与其他词相邻出现的。这种方法有很多限制,最大的限制是机器不能理解嵌入单词的语义上下文。
歧义:这就导致了一些重大问题消歧为例。如果你,作为一个人,读一篇关于汽车的文章,看到“Jaguar”这个词,你就知道它指的是一个汽车品牌,因为你从上下文中知道“Jaguar”在这里一定是汽车而不是动物。
缺乏标准:传统文本挖掘工具的另一个缺点是,其结果往往是更结构化的数据对象不基于任何标准,因此不能很容易地与其他数据流一起处理,例如与结构化数据进行链接和匹配。
这些限制清楚地表明,我们必须教我们的人工智能应用程序如何理解单词和上下文。这是他们更准确地确定自己意思的唯一方法。
深度文本分析超越简单的文本挖掘
- 文本结构分析
- 基于知识图的文本实体提取
- 基于文本语料库统计的词汇和短语提取
- 语言处理技术,如词干截取或语用化
- 基于语义知识模型的机器学习命名实体识别和文本分类
- 还可选择从文本提取事实
- 全文语义自动提取是基于数据和实体的提取,并利用知识图对一组条件进行验证
这使得机器能够获得相关的背景知识,从而更精确地解释和分类单词、句子甚至整个段落。这些知识以基于W3C标准的知识图的形式提供给解决语言问题更准确地说,是自然语言。这种方法有助于避免误解,这是一个常见的问题,例如,虚拟助手往往只看表面信息,没有读懂字里行间的含义。
所有好处一目了然
以下是深度文本分析与传统文本分析方法相比的优势:
DTA不是为每个应用程序开发语义知识模型,而是依靠知识图基础设施,从而依靠更可靠和共享的资源来高效地开发嵌入特定上下文的语义AI应用程序。
它融合了多个学科,如计算机语言学和语义知识建模,以帮助计算机理解人类交流(例如,创建真正工作的聊天机器人)。
人类交流产生大量非结构化数据,这些数据大多以文本形式隐藏。深度文本分析有助于解决非结构化数据的模糊性,并使其可由机器处理。
它更精确地执行提取和分析任务,并将自然语言转换为有用的数据。
该技术被用于在所谓的自然语言理解(NLU)环境下更精确的人类交流意图识别。其基础是自动抽取和分类较大的文本单位,如整个句子。
深度文本分析是基于背景知识的文本挖掘,也就是说,它是基于附加的上下文信息。这提高了从非结构化内容中提取相关数据点的精度。
深度文本分析的两个示例应用程序
示例1
合同的情报
有许多合同情报解决方案旨在通过智能方式使法律合同具有可解释性和可搜索性,从欧宝官网注册而更好地访问和控制法律合同。这是一个利用支持深度文本分析的知识图使大量合同中的信息更容易找到和访问的完美用例。
在这个过程中,第一步是使契约在一个有意义的结构中更容易被访问。在此基础上,利用知识图进行第一次语义分析,通过实体抽取、分类和分类,确定合同的哪些部分需要进一步分析。在这一步中,将泛型结构转换为语义有意义的结构。
现在你知道哪些部分合同的相关学科(如机密性、担保、金融环境,等等),具体主题的深入分析可以进行,符合条件的应用规则,通过测试定义在图的基础知识。这可以让您更好地了解您的合同,并允许您根据自己的指导方针,通过自动抽取整个句子来检查合同的遵从性。
示例2
智能机器人过程自动化
随着机器人过程自动化(RPA)的引入,企业正努力使用一种非侵入式集成技术来消除繁琐的任务,以便公司员工能够专注于更高价值的工作。然而,RPA很少使用任何AI或ML技术,而是整合了大量基于规则的业务流程自动化和批处理作业,以更智能的方式组织它们。
下一代RPA平台即将问世,它们将比之前的平台包含更多的AI,而且其中大部分将基于深度文本分析。因此,RPA似乎只是智能自动化(IA)道路上的一个权宜之计。智能自动化最终将过去需要人类感知和判断能力的高阶任务自动化,例如:
- 入职流程(新客户或新员工)
- 投诉及索偿处理
- 风险分析(如财务报告)
- 优化的帮助台
- 监视和验证合规性
- 尽职调查过程
你还要吗?
如果你需要的是一个简单的指南,让构建知识图就像烹饪你最喜欢的菜一样简单,看看语义网公司的首席执行官和创始人Andreas Blumauer,在the knowledge Graph Cookbook的官方发布上。
150 +客户信任我们。
了客户
奖项和赞誉
KMWorld100家在知识管理方面很重要的公司
KMWorld2016、2017、2018年引领潮流产品