Cinque Terre

学术动态

当前位置: 网站首页 > 学术动态 > 正文

光合沙龙丨第二期 :“文本挖掘:工具与方法”内容回顾

发布时间:2022-05-17 作者: 浏览次数:

2022512日下午,华中科技大学建筑与城市规划学院设计学系、光影交互服务技术文旅部重点实验室、数字光影技术湖北省工程研究中心联合推出光合沙龙第二期活动,本期活动主题为文本挖掘:工具与方法报告在西七楼401室举行,设计学系博士研究生、科研助理范浩宇对学术研究中常用文本挖掘工具CiteSpace的使用方法进行了系统讲解。设计学系张健教授主持了本次活动。

75a11ae038bd8538a92c55a5f152a00

 

 

讲座开始之前,张健教授对文本挖掘工具与论文写作的关系及其价值进行了简要介绍,使大家形成对这次主题基本了解与认知

随后,范浩宇展开了具体的内容讲解。首先,他就文本挖掘自身内涵进行了讨论。其指出当下生活的方方面面都离不开数据支撑,分析数据变成了现代社会的刚需。而分析数据的第一步就是对数据进行挖掘,英文叫“Data Mining”,而“文本挖掘”其实是“数据挖掘”的一种延伸,英文叫“Text Mining”。两者的相同点都是要从大量的数据中通过各种各样的分析方式来获取高质量的信息,文本挖掘侧重于通过分类、聚类、概念/实体挖掘、模型等方法来对诸如词语的频数、模式识别、标签\注释等信息进行抽取,其本质是将文本转化为数据进行的一种分析。

 

6efba6dc601934089a57e863b62a0cc

 

其次他介绍了文本挖掘的数据来源一般而言,文本挖掘的数据来源有以下几种,中文的有CNKI(中国知网),CSSCI中国社会科学引文索引,CSCD中国科学引文索引;英文的有Web of ScienceWoS)数据库,Scopus数据库数据,PubMed数据库以及Derwent数据库。从文本分析的信息完整程度的角度上看,Web of ScienceScopus的数据最完整,DerwentCSSCI次之,CNKI完整性最小。而我们平时接触得比较多的两个数据库就是CNKIWoS

 

{0JKMM_PWK{]`O$W){0K[ZG

 

同时,他为大家对比了几款常用文本挖掘工具使用文本挖掘的工具的目的就是要是使复杂的学术问题逻辑化、可视化,利用良好的工具使复杂的问题简单化,在短时间内用看似很难的方法、软件、模型来进行学术研究。当下主流的文本挖掘数据可视化工具包括CiteSpaceVOSViewerCitNetExplorerSCI2PjekGephi等,综合比较来看,CiteSpace除了暂时无法制作热度图之外,在网络分析、网络可视化、热度图、转折点、聚类自动化命名、宏观理论、双图叠加、概念树、时间线图上都能实现。

接下来,范浩宇CiteSpace的功能、内部运作原理和操作方法进行了详细讲解CiteSpace译为引文空间,是在科学计量学、数据可视化背景下逐渐发展起来的,一款着眼于分析科学文献中蕴含潜在知识引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为科学知识图谱其是以知识域为对象,显示科学知识的发展进程与结构关系的一种图像,擅长用可视化的图谱揭示知识之间的联系和知识的进化规律。同时,范浩宇实例分析方式为大家演示了CiteSpace文本数据挖掘流程

US%[WXZ]3`YOK8%{~E8ZQR8

 

在讲座的结尾,范浩宇大家推荐了《CiteSpace中文版指南》、《数据挖掘概念与技术》CiteSpace:科技文本挖掘及可视化》三本参考书,方便对数据可视化感兴趣的同学进行更深的学习。

 

最后,张健教授对此次讲座进行了总结。她指出CiteSpace作为一个文本挖掘工具,在论文写作的前期文献整理阶段为大家提供有力帮助。它可以快速进行基础性的学术信息识别工作,迅速推演出直观可见的知识框架,为研究者节约大量的资料梳理时间增强文献综述的可读性。但同时,学术研究与写作的主体是人,文本挖掘有其局限性,要善用才能真正形成对研究与写作的有效助力

 

 

ea31c960326a0d963696f6657202a25

华中科技大学建筑与城市规划学院 © 版权所有Copyrights all reserved

学院地址:湖北省武汉市洪山区珞喻路1037号 华中科技大学南四楼N104室
邮编:430074
电话/传真:027-87556714
院长信箱:mcli@hust.edu.cn