军事联盟什么样用VOSviewer分析CNKI关键词共现?

用VOSviewer尝试CNKI华语文献关键词共现(keyword
co-occurence)分析时,你或者会踩到二个大坑。本文扶助您绕开那么些坑,或是从坑里爬出来。

疑惑

在《如何用VOSviewer分析CNKI数据?》一文中,大家提到了哪些用VOSviewer可视化分析CNKI文献。

依据文中的步子,大家从CNKI下载并导出《图书情报知识》期刊二零一四年全年文献数据,通过Endnote作为中间转播,最终导出了VOSviewer能够读取的奥迪Q7IS文件。

本人把那些几经辗转得来的君越IS文件存放到了这里,你能够直接下载应用。

利用该数据文件,我们用VOSviewer分析合营者(Co-authorship),做出了这张图。

局地读者很提神,立时打算用相同的形式,做CNKI中文文献的要紧词共现分析(keyword
co-occurence)。

快速,他们就遇到了问题。因为用样例数据,尽管能够做出分析结果图,却是这几个样子的:

图中间唯有关键词,没有其它重庆大学词之间的连天。那叫什么共现分析?!

有读者很失落地把这幅图发给了自家。问作者那是还是不是意味着,VOSviewer不能够胜任中文文献的第③词共现分析?

当然不是。

VOSviewer做的是总计和可视化。对于它来说,中文和英文关键词没有本质分化。只要来源数据处理稳当,分析的结果都应当是不易的。

那正是说难题到底出在哪里吗?

原因

我们用样例数据,重新走一回流程。复现读者蒙受的泥沼。

VOSviewer主界面里,我们挑选File -> map -> create,新建一个分析图。

先是个对话框问大家映射方式。

咱俩从中挑选第一项。

下一场新弹出的对话框会询问分析源文件的格式。

大家选取RAV4IS。

上边包车型客车对话框,询问分析类型。默许是协小编分析(Co-authorship)。

咱俩采纳关键词共现分析(Co-occurence)。

接下来VOSviewer询问大家阈值的采用。

留意暗中同意的阈值为3,不过尔尔只有一个至关首要词满意阈值。最后的图上只要唯有2个节点,就太稀疏了。于是大家降低阈值到1。

VOSviewer提示大家,通过阈值过滤的主要词有83个。

咱俩采纳下一步。那时能够观望全数重要词列表。

笔者们得以从中选用照旧反选关键词做分析。

而是那里别着急实行下一步。我们来看了拾叁分奇怪的场地。

只顾图中列表的末尾一列,是连接强度,也便是这一行的首要词与其余重大词共同出现的总次数。私下认可从大到小排列,可是全数的机要词共现次数甚至都以0次

怪不得我们点击下一步的时候,会出现主要词节点间,全无链接。

干什么关键词同时出现次数分析值都以0吧?难道每篇诗歌唯有3个根本词?关键词之间历来没有同时出现过?

那不符合常识。

大家发布期刊诗歌或许写结束学业杂文时,一般情况重点词至少也要列出三个呢。

带着如此的迷惑,我们就要检查一下RAV4IS源文件了。

以在那之中的首先篇《音信素养的野史与实践之旅》为例,大家看出关键词一共有一个,分别为“消息素养”、“行动素养”和“行动素养联盟”。

何以分辨它们是重中之重词吗?

因为后面有个KW -前缀作为标志。

不过难点来了,大家看到小编音信部分,各个作者名字前,都有AU -前缀。

AU – G.Zurkowski, Paul
AU – V.Kelly, Jeffrey
AU – 刘千卉
AU – 程璐

而是重庆大学词那里,除了第多少个有KW -前缀,其余都不曾。

KW – 新闻素养
行动素养
走动素养联盟

会不会是因为这么些原因,导致协笔者分析链接不奇怪,而首要词共现分析链接消失吗?

咱俩做个实验,验证一下大家的推断。

实验的不二法门一点也不细略。我们把第3篇文献的别的三个至关心重视要词从前,都添加KW -前缀。其余文献的关键词不做其余处理。

修改后的景逸SUVIS文件,就成了那样子:

我们回来VOSviewer,重新分析。前面包车型客车步子和上一节完全一致。直至最终一步。

咱俩那二个强烈地对待出,关键词总链接强度(Total Link
Strength)一项产生了变动,有几个主要词,不再是0了。

发出变更的那个重点词,恰恰是刚才添加过前缀的那2个。

那个大约的实验,验证了我们的估量。

并不是VOSviewr的拍卖能力有缺点和失误,而是汉语文献元数据,经由Endnote导出为CR-VIS格式的时候有尾巴,导致多主要词的前缀没有任何不利添加。

效率

标题找到了。

上面我们该如何做?

相当的粗略,把富有首要词的前缀都添上就好了啊。

你可能立马觉得天旋地转。

把前缀都添上?说得轻快!

样例数据里,文献有数十篇。一篇篇找关键词,添加前缀,就算会做个头晕脑涨,但归根结蒂还有个盼头儿。

标题是,要分析的文献有好几千篇。都添完的时候,是还是不是下学期都该开学了?

也没那么夸张了。

思想坚持不懈,精卫填海……先贤的精神力量还不够给您以号召吗?

动感即便要有,但功效也是要追求的。

作者们本来不能一条条手动查找关键词并累加前缀,那样效能太低。大家要用工具来自动消除决本条标题。

好音信是,工具作者已经帮你编写好了。

上面笔者详细报告你,该怎么采用。

工具

自家帮您编写的工具,是个Python脚本。

我们须要安装Python运转条件Anaconda,来利用那个本子。

请到本条网址
下载最新版的Anaconda。下拉页面,找到下载地点。依据你最近选择的种类,网站会自动推荐给您适合的本子下载。笔者动用的是macOS,下载文件格式为pkg。

下载页面区左边是Python 3.6版,右边是2.7版。请接纳2.7本子。

双击下载后的pkg文件,根据汉语提醒一步步设置即可。

安装好Anaconda后,大家来下载脚本。

自笔者把脚本存款和储蓄在了Github项目里。请从其一人置下载压缩包。

下载后解压到地点,那些目录便是我们的以身作则目录。

请进入终极(macOS或然Linux),用cd命令进入到这些目录。假使你用的是Windows,请运转Anaconda
Prompt程序,并跻身该目录。

上边,请执行以下命令。

python ris-add-kw-prefix.py tsqbzs.ris

借使你要品尝处理本身的帕杰罗IS文件,请把它拷贝到那些演示目录里面,然后把上面命令语句中最后有的(文件名)改成你本身的凯雷德IS文件。

履行后,你会意识目录下多了1个文本,叫做output.ris。

我们打开那一个新转变的帕杰罗IS文件。

可以看出,全部的未加前缀的机要词,都早就自行添加了前缀。

咱俩品尝将这一个output.ris输入到VOSviewer,这一次的辨析结果列表如下:

此时再注重庆大学词链接数量,就创建多了。

应用那么些分析结果来可视化,你会晤到以下变化的图形:

在那么些样例中,我们唯有几十篇文献。利用脚本处理前缀,显得略微大炮轰蚊子。

但如若您必要处理几千、几万篇文献的笔录音信,用那一个本子也如出一辙能够刹那间做到操作。成效的歧异就反映得痛快淋漓了。

好了,到此地停止,你早已驾驭哪些选择大家编写的工具,对Endnote导出的中文文献做要紧词处理,在VOSviewer中正确解析重点词共现了。

对象落成。

假如您对规律和技术细节不感兴趣,下边就能够跳到小结部分了。

假定你还没走,作者来可疑你在想怎么。

诸如此类飞快的拍卖方法,是或不是令你觉得莫明其妙?

教员你的工具至少有300行语句吧?

没有。

骨子里程序从头到尾,唯有20多行。

而当中的主导部分,唯有3行。

教员利用了如何黑魔法?!

魔法

本人当然不会魔法。

大家接纳的,是电脑最简便的能力——根据指令,重复执行枯燥劳动。

从第叁行开首,依次检查每一行的文字。假若该行不是空行,而且里面不包含前缀连接符号“-”,那么大家就将其当成未加前缀的显要词。

大家让电脑在那行文字的最前边,加上KW -前缀。

正是那样简单,一点也不炫酷。

但是电脑怎么了解“不是空行”、“不含有符号‘-’”呢?

请看大家Python文件中的大旨函数代码。

def add_kw_prefix(data):
    regex = r"^([^\-\s]+?)\s+$"
    subst = "KW  - \\1"
    newdata = re.sub(regex, subst, data, 0, re.MULTILINE)
    return newdata

大家用到的工具,叫做正则说明式(regular expression),简称re。

它是电脑处理文件方式的一种经典工具。

大家事先谈到机械学习的时候,曾经说过。机器学习模型,是人不精晓怎么描述规则的时候,让电脑本人学。

而正则表明式,则相反,是人类能够很规范地叙述规则时,为机械定义的方式。

不错定义形式后,总计机就会检讨文本中是还是不是含有那种格局,并且做出相应的处理。

正则表明式的作用越发强大,可是学起来须求花一番功力。

只要您对正则表明式感兴趣,希望自个儿也能决定总结机程序,对文件精确地做出情势识别与处理,能够参考DataCamp上的那篇教程来学习。

小结

由此本文,希望您早就了然了以下内容:

  1. VOSviewer能够正确处理普通话文献的首要性词共现分析;
  2. CNKI文献元数据经由Endnote导出成翼虎IS时,关键词处理有通病,必要加上对应前缀;
  3. 你能够使用本人提供的Python脚本,来飞速达成前缀添加工作;
  4. 正则表达式的运用,能够使得提高广大文本形式匹配与处理操作的功能。

讨论

用本文的点子,你做出了未可厚非的CNKI文献关键词共现分析了吧?以前,你是什么样处理重庆大学词共现分析的?有没有如何更是便利快捷的措施?欢迎留言,把您的经验和思维分享给大家,我们一道调换座谈。

如果您对自个儿的稿子感兴趣,欢迎点赞,并且关切小编的特辑,以便接受后续文章更新公告。

如若本文可能对你身边的至亲好友有扶持,也欢迎您把本文通过今日头条或朋友圈分享给她们。让他俩同台参与到大家的议论中来。

延长阅读

数据科学有关文章合集(玉树芝兰)

admin

网站地图xml地图