跳转至

知识融合主要方法

学习目标

  • 了解什么是知识融合
  • 理解知识融合的主要技术原理

1 知识融合(Knowledge Fusion)

  • 知识融合,简单理解是将来自不同来源、格式、结构的异构数据统一整合到一个一致的知识图谱中,在这个过程中,这一过程中,主要解决以下问题:
    • 消除冗余:多个来源可能描述相同的实体或关系,知识融合要消除重复项,并确保图谱的精简性。
    • 统一表达:不同来源中的实体可能使用不同的名称、格式或结构表示相同的概念或关系,融合需要将它们统一为一致的表示方式。
    • 解决冲突:不同数据源对同一个实体或关系的描述可能存在冲突,知识融合需要在这些冲突中找到一致性,或通过可信度评估决定保留哪个版本。
    • 知识扩展:融合过程可以从多个来源中挖掘新知识,丰富知识图谱的内容,提升知识的全面性和完整性。
  • 主要关键技术包含指代消解、实体消歧(实体链接)、实体统一(实体对齐)、关系对齐等。

    • 指代消解(Coreference Resolution)
      • 一般在语言学及我们日常用语当中,在下文采用简称或代称来代替上文已经出现的某一词语,语言学中把这种情况称为“指代现象”,也即是指代。指代现象能够避免同一词语重复出现所造成的语句臃肿、赘述等问题;但也因为这种省略造成“指代不明”的问题。形式上,将代表同一实体(Entity)的不同指称(Mention)划分到一个等价集合的过程称为指代消解。
      • 作用:确保数据一致性,避免在图谱中生成溶于或者矛盾的节点。
    • 实体消歧(Entity Disambiguation)
      • 实体消歧是指根据上下文信息来解决同一名称可能指代多个不同对象的问题。其主要目标是确定文本中提到的具体对象,以消除歧义。
      • 核心任务就是解决"一词多义"的问题!
      • 作用:将不同来源的相同实体合并,避免在知识图谱中生成重复的节点;确保同一实体在不同上下文中的一致性,提高数据质量。
    • 实体统一(Entity Normalization)
      • 实体统一是指判断多个实体是不是属于一个实体,目的是将来自不同数据源中的同一实体进行识别和合并。
      • 作用:确保在知识图谱中同一实体仅有一个表示。
    • 关系对齐(Relation Alignment)
      • 不同数据源可能使用不同的方式描述相同的关系,关系对齐的目的:将不同数据源中表示相同的关系进行对齐和融合。
      • 作用:避免在知识图谱中相同关系间数据重复。

2 实体消岐

  • 实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。
  • 举例说明:

    • 首先我们需要准备一个类似于下面的这种实体库:
    id 实体名称 实体描述
    1001 苹果 苹果公司没几年
    1002 苹果 水果的一种,一般产自于。。。
    • 当我们拿到text时,比如“今天苹果发布了新的手机”,我们可以将实体库中的实体描述,全部转换为向量。

    [今天,发布了新的手机] ⇒ 向量(tf-idf) ;

    水果中的一种,一般产自于 ⇒ 向量(tf-idf);

    美国一家高科技公司,经典的产品有iphone 手机 ⇒ 向量(tf-idf)

    • 基于上述向量做相似度的计算,如果S1>S2 分类成Fruit, 反之分类成苹果公司

3 实体统一

  • 实体统一是指判断多个实体是不是属于一个实体,其实这种情况也比较常见,比如大家在填写地址的时候,有很多种写法但指的是同一个地址,这些都是实体统一要做的工作。
  • 实现方法:

    • 1.计算两个实体(字符串)之间的相似度,一般使用编辑距离即可,设定阈值,判断是否属于一个实体。
    • 2.基于规则:根据领域专家提供的规则,如对同义词或缩写的映射。
    • 3.基于有监督的学习方法:训练模型自动判断实体是否相同。
  • 举例说明(基于规则)

    • 假设从 不同数据源抽取出两个实体

      • 数据源1: 百度有限公司
      • 数据源2: 百度科技有限公司
    • 实体统一步骤:

      • 我们通过人工的设计一些库,或者说是一些词典,这些库包含相同实体的特点:

        词典1:公司、有限公司、分公司…

        词典2:北京,天津,上海…

        词典3:科技,技术…

      • 如果实体中的词出现在库中将其删掉

        1、百度有限公司——作为原型,删掉出现在词典中的词后为:百度

        2、百度科技有限公司 —删掉出现词典中的词后为:百度

        3、判定相同实体

    • 3.基于有监督的学习方法:训练模型自动判断实体是否相同。

      • 直接训练模型进行二分类,判断是否相关

4 关系对齐

  • 不同数据源可能使用不同的方式描述相同的关系,我们需要将不同数据源中表示相同的关系进行对齐和融合。
  • 实现方法
    • 关系同义词映射:根据已知的同义词表或通过上下文分析,统一表示相同的关系。
    • 基于上下文的关系对齐:通过分析关系的上下文,如与哪些实体发生关系,来推断两个关系是否等价。
  • 举例说明:
    • 假设从不同数据源获取到两条关系:
      • 数据源1:<John, is married to, Jane>
      • 数据源2:<John, spouse of, Jane>
    • 对齐步骤:
      • 同义词映射:通过关系同义词表,识别出“is married to”和“spouse of”是同义词,表示相同的婚姻关系。
      • 上下文分析:检查两条关系中的实体,发现两条关系涉及相同的实体“John”和“Jane”。
      • 结果:两条关系被合并为 <John, is married to, Jane>

小节总结

  • 本小节主要介绍了在知识融合相关知识,知识融合目的是解决异构数据源之间的冲突和不一致,确保最终的知识图谱具有一致性、完整性和准确性。通过实体对齐、关系对齐、数据冲突解决、语义一致性维护等技术手段,知识图谱可以从多个数据源中提取和融合知识,并通过推理发现新知识,实现知识的全面整合与应用。