欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 网站优化百科 >
联系我们
企业网站建设 建站咨询
电话咨询:13524991327
E-mail:1424374510@qq.com
QQ:1424374510

基于叙词表的关键词共现网络优化

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-07-14

以“白血病”为例提出基于叙词表优化关键词共现网络的方法,形成共现网络优化模型,采用 模糊聚类方法对基于叙词表的数据进行优化聚类,指出该方法有助于优化聚拢共现网络,提高共现网络的 中心聚集度和密度。
1.引言
由关键词及其共现关系形成的网络被称为共现 网络,它是以关键词作为知识单元构建的知识网 络⑴。由于关键词具有模糊性、非结构化以及语义 关系不明等缺点,在构建网络时容易造成知识网络 庞大且过于发散的问题。而叙词表作为受控词表通 常有明确的语义关系和严谨的词法规范,以规范化、具有明确概念含义的叙词为基本成分™,因此 基于叙词表对共现网络进行优化有望解决该问题。 本研究目标是通过利用叙词表的优点改进用户关键 词的质量,实现基于叙词表的共现网络优化,同时 对优化过的共现网络进行模糊聚类分析,更精细地 揭示关键词节点之间的语义关系,对完善知识组织、提高知识服务效率将具有一定意义。
2.相关研究
构建关键词共现网络主要是进行共词分析,共 词分析法即对词与词之间的共现关系进行分析,当 前对共词分析方法的研究更多是侧重于以共词分析 过程为主线,探究分析对象的改进、测度指标改 进、可视化方法调整和融合其他方法等方面的理论 研究,以及基于词、主题、时间维度和拓展应用4个层次的具体应用研究[3]。相比单纯的词频统计方 法,共词分析方法不仅注重关键词的文档频率,更 加注重其相关性,从而能够更好地揭示关键词之间 的语义关系。国内外在共词分析研究大多是从研 究学科领域结构的角度出发,对具体的学科领域进 行实证分析。近几年开始对共词分析方法进行改 进,如Saason等提出基于共词分析方法扩展概念 图的研究模型,使用网页计量网络计数来改进相似性 度量,结论显示该方法可以延伸应用到其他领域。王 玉林等针对共词分析方法存在的共现词对的同量 不同质问题、共词分析结果解释的不一致问题等,提 出一种细粒度语义共词分析方法。冷伏海等借鉴 数字线划地图(Digital Line Graphic, DLG)关联挖 掘算法提出基于位向量的三元共词分析算法和基于坐 标图的三元共词结果分析方法’以主题图为指导的共 词分析方法能够有效克服共词分析中的高频词孤立问 题,社团主题更鲜明。上述方法为构建专业领域的术 语词群提供有益的参考,在上述研究基础上以概念为 核心、构建具有较高相关度的共现知识网络在方法上 是可行的。同时由于关键词具有模糊性、非结构化以 及语义关系弱的问题,需要严格规范的词表来约束, 因此本文重点研究基于叙词表优化关键词,构建关键 词共现网络,对关键词共现网络进行模糊聚类分析, 为智能检索、个性化推荐等实际应用提供有效的知识 基础。
3.关键词共现网络优化模型
3.1整体优化模型
叙词表语义关系根据国际标准化组织 《IS025964信息与文献-叙词表与其他词表的互操 作-第2部分:与其他词表互操作》,叙词表主要 包括等同、等级和相关3种语义关系,主要通过这 3类关系来优化关键词网络。共现网络的等同、等 级和相关关系归并过程,见图1。图1 -1所示共 有5个节点,连线上的数值为两两之间的权重, 节点A与节点B、C都相连,节点C与节点D、E 相连。节点C与D从字面来看两者相似,经过查 阅相关资料后发现C为规范词,D为非规范词, 即两者为同义关系,则删去节点D并将两者之间 的权重加到A与C之间的权重上,见图1-2。图 1 - 1中节点C与E相连,查阅叙词表后发现E是 c的上位词,则将C与E交换位置,见图1 -3。 另外对于相关关系则需要通过计算词之间的语义 相关度来确定。

《中文医学主题词表》(Chinese Medi-cal Subjects Headings, CMeSH)中国医学 科学院医学信息研究所出版的《医学主题词表》中 文版,用于中文医学文献的标引、编目和检索。医 学主题词为同一概念具有不同表达方式的词语提供 规范标准的用语,使文献加工处理达到高度的统 一,为文献查询提供便利。
3.1.3基于叙词表的关键词共现网络优化模型 (图2) 主要包括数据层和语义层。在数据层进 行数据收集、清洗后构建关键词共现网络,作为后 续处理的基础。在语义层依据叙词表的3种语义关 系进行共现网络优化,分别进行归并处理,提高知 识网络的密度和关联性。对共现网络进行密度和中 心势分析,用于改进关联效果.

3.2模糊聚类方法
概述社群是社会网络结构中具有内聚性 的特定团体[8],同一社群的各节点间趋于内部联系 紧密、外部联系稀疏从社群角度看可以将这 些术语概念分割成几个不同的群体,不仅可以深入 洞悉社群内部结构,而且有助于从群体视角理解整 个网络的结构和功能,揭示各群体之间的关系[11]。 模糊聚类算法是社群划分的一种方法,而同时聚类 是一个无监督学习过程[12],在聚类前很难根据经验 知识确定聚类数,因此本研究选用模糊聚类算法对 关键词进行聚类分析,动态挖掘出其中的深度 关系。
3.2.2数据标准化由于样本的量纲和数量级不 一定相同,故在运算过程中可能突出某数量级特别 大的特性指标对分类的作用,而降低甚至排除某些 数量级很小的特性指标的作用,数据规格化使每个 指标值统一于某种共同的数值特性范围。
构造模糊相似矩阵聚类是按照某种标准 来鉴别元素间的接近程度,将彼此接近的对象归为 一类,一般利用夹角余弦、Pearson或Jaccard来计 算相似矩阵。
3.2.4模糊聚类通过以上两个步骤建立起来的 模糊关系一般只具有自反性和对称性,不满足传递 性,所以利用其构造一个新的模糊等价矩阵,然后 依次设定截集\进行动态聚类。
4.实证研究
4.1数据来源
以《中国图书馆分类法》中IU33.7 “白血病” 为依据,从万方数据库中抽取部分数据形成268 x 268的共现矩阵,见表1。使用万方医学网的MeSH 主题词获取“白血病”部分主题词,发现白血病共 分为3大类,其中“白血病,实验性”对应的主题 词有5个,“白血病,淋巴样”对应的主题词有15 个,“白血病,髓样”对应的主题词有21个.

关键词处理
4.2.1概述虽然研究人员在撰写论文时会尽量 使用规范词进行标引,但仍不排除会根据个人对某 些知识的理解给出一些非规范标引词。本研究根据 叙词表——《医学主题词表》中的相关部分对这 268条数据进行规范化、专业化处理,制定几条准 则,为处理方便本研究所有关键词都对应唯 一 ID 号。
4.2.2关键词规范化处理 (1)处理符号、语 义模糊的关键词。如“白血病,慢性,髓性”在叙 词表中并没有找到这一分类,通过网络搜索“慢性 髓性白血病”发现其属于髓样这一部分,为方便识 别这类词将其格式改为“某某白血病”类型。另外 像“白血病急”这一类词可能因为书写错误或抽取 过程中出现的误差使词不完整,通过査看该词的频 次发现仅为1,影响甚微所以删除。在作者编写论 文或在抽取过程中导致一些符号或英文格式不规 范,对这类词进行逐一处理。如“白血病:U937 细胞?”中通过査阅相关资料发现冒号和问号无意 义,因此删除这类无意义的符号。疾病类关键词经 常会出现英文,统一将其转换为英文半角大写,另 外对于査阅相关医学资料确定是否需要含 有该字符串。(2)合并与转化重复关键词。在抽取 过程中可能因标点符号不一致会使同样的词收录两 遍,通过人工检査,一一对比,进行合并删除处 理。在作者编写论文时会根据内容或个人理解对一 些词进行前后对换,如“白血病,急性,早幼粒细 胞”和“白血病,早幼粒细胞,急性”都是对急性 早幼粒细胞白血病的描述,因此对这类词进行合并 去重。在医学上有些词虽然说法不同但指向对象一 致,如“白血病,急性,髓细胞性”和“白血病, 急性髓细胞”都是指急性髓细胞白血病,这类词数 量有限,通过人工搜索并查阅相关资料进行对比, 进行合并去重。
游离散点组优化处理(图3) 经过规范 化处理后发现网络周围有部分单独小组,距离中心 较远,所以对这类词进行处理。图3中“白血病T细胞,慢性”、“白血病大颗粒淋巴细胞”、“白血病,单核细胞,急性/诊断”和“白血病,单核细 胞,急性/并发症”等节点游离在周围且与其他节 点没有关联。(1)处理等同关系的关键词。“白血 病,T细胞性,大颗粒淋巴细胞性”和“白血病大 颗粒淋巴细胞”均是指白血病大颗粒淋巴细胞,所 以删除“白血病,T细胞性,大颗粒淋巴细胞性” 并对共现矩阵中的“白血病大颗粒淋巴细胞”增加 相应权重。(2)处理等级关系的关键词。“白血病, T细胞,慢性”与“白血病,T细胞,急性”均属 于“白血病,T细胞”且两者为等级关系,因此将 两者相连,在共现矩阵中增加权重。同样通过查阅 叙词表,“白血病大颗粒淋巴细胞”也属于“白血 病,T细胞”且与上述两个关键词为等级关系,因 此处理方式相同。通过上述处理目前得到关键词数 237 个。

4.3模糊聚类
数据相似及标准化处理将上文处理过的 白血病关键词共现矩阵导人SPSS Statistical,进行 分析-相关-距离处理,选择Pearson进行变量间 相似性计算,得到相似矩阵。过滤后的“白血病” 相似矩阵,见表2.
4.3.2构造模糊等价矩阵将相似性矩阵导入 MATLAB,通过设定一个值作为找到传递闭包的标 志,利用矩阵自乘得到模糊等价矩阵N,因篇幅有 限只截取一部分数据。
4.3.3聚类及结果展示通过利用阈值转换模糊 等价矩阵中的值,若多阈值则转换为1,若< 阈值 则转为0,最后根据比较行向量得到聚类结果。在 模糊等价矩阵N中可取阈值:0.099 ; 0.012 0.106; 0.125; 0.192; 0.263; 0.296; 0.313 0.404; 0.439; 0.497; 0.575; 0.601; 0.706 0.961,得到相应的聚类矩阵Q,经整理最终得到以 下聚类结果,每个关键词都有唯一 ID。不同阈值对 应的聚类结果(部分),见表3.


4.3.4二次聚类结果通过比较这15种聚类结 果,最终得出阈值为0.263为最优结果,即其中41 个关键词为一类,其他196个关键词各自为一类, 利用JAVA编程将相似矩阵变成关系3元组(关键 词-关系-关键词),导人NE04J数据库。通过观 察NE04J示意图,发现存在很多漂浮在周围且无关 联的节点,对比关键词频次表,其余的196个关键 词频次几乎都是1,且基本没有关系相联,对结果 的影响甚微,故删去这些节点,然后基于CMeSH 叙词表只对这41个关键词对进行二次聚类。将聚 类结果再次导人NE04J数据库,模糊聚类可视化结 果,见图4。
4.3.5聚类结果分析从CMeSH主题词中可以 发现白血病共被分为5大类,其中髓样和淋巴样类 目下所含主题词最多,这与聚类结果一致。在 NE04J中使用Cypher查询可以得到每个节点及其与 之相关节点的关系图,在“白血病,髓样”中与 “白血病,髓样,急性”相关的节点有63个。另外 “白血病,早幼粒细胞,急性”,“白血病,单核细 胞”,“白血病,单核细胞,急性”和“白血病,非 淋巴细胞,急性”相关节点分别为62、58、57和 56个,位于前列。所以可初步确定在“白血病,髓 样”中目前研究讨论最多的是这几种。同样在“白 血病,淋巴样”中“白血病,B细胞,侵袭性”, “白血病,T细胞,急性”,“白血病,淋巴细胞,急 性/护理”和“白血病,淋巴细胞,急性/免疫学” 相关节点为60、59、44和43个,可知这4个节点 在该聚类中关联性最强,另外“白血病,细胞”中 “白血病,混合细胞”相关节点最多,为54个并与 .70 .其他节点有较大差距,在白血病中混合细胞是指由 髓细胞和淋巴细胞共同累及的细胞,而这两类细胞 正是白血病中占有率最髙的,因此与结果基本一 致。在“白血病,其他”部分各个节点之间差距不 大,基本可以确认主要集中在白血病病理学特征和 护理方面。
4.4社会网络分析
运用定量分析的方法测量网络结构,刻画网络 的具体形态和特性。鉴于此本研究利用社会网络分 析方法对共现网络结构和特征进行分析。网络基本 特征包括密度、中心性分析等,用以描述整个网络 的规模和紧凑程度。网络密度可用于刻画网络中节 点间相互连边的密集程度,定义为网络中实际存在 的边数与可容纳的边数上限的比值。一个具有;V个 节点和L条实际连边的网络,其网络密度公式为: 21
中心势是指比较网络的边缘点
N(N - 1)和中心点的中心度情况,如果一个网络很集中,那 么中心点的中心度高而边缘点中心度低;如果一个 网络很稀疏,那么中心点、边缘点的中心度差异较 小,因此网络中心势衡量整个网络向中心聚集的程
■ ( ^*ADmax ^ ADi ) _
度,A式为 _ i)(re -2)_,指网
络中节点中心度的最大值,Cm指网络中第i个节点 的中心度。将处理前后的白血病数据分别导入UCI- NET进行密度分析和网络中心势分析,网络特征分 析结果,见表4。从表中数据可知处理前后的网络 密度都较低,因为网络中存在一些无关联的节点但 这些节点与白血病又相关所以并没有做删除处理, 但网络密度提高了 17.2%,网络更加紧密,这可以 说明达到了一定优化效果。网络中心势也由0.96% 提高到1. 08%,说明优化过的共现网络更加集中在 网络中影响力大的节点。

5.结语
本研究以“白血病”为例,提出基于叙词表优 化关键词构建共现网络的模型与方法,使用模糊聚 类算法进行聚类分析。研究结果表明医学主题词表 严谨、规范的类目层级关系与文献关键词的全面、 动态相结合,能优化关键词,使构建的共现网络更 加清晰直观。本研究为保证关键词的全面性,保留 了低频词,这可能导致共现网络比较发散,今后通 过聚类等方法提高语义关联性仍需要进一步研究。 同时叙词表一般规模较小,对开放领域的共现网络 的优化作用还需要完善,未来可以通过与本体、术 语库等其他知识资源相结合,探索其在不同领域的 适用性,形成面向计算机自动处理的知识组织方 法促进知识组织的精准化和自动化。