业界动态
4-关键词提取-论文研读-RaKUn算法(2)
2024-10-31 10:53

一马当先,争做国家栋梁。

4-关键词提取-论文研读-RaKUn算法(2)

本博客初衷是用于学校项目实训知识梳理、工作内容、收获感悟的记录。
若能在您的学习之路上有所帮助,不胜荣幸。但若需转载,也请注明出处。

博客包含以下内容(也是开篇提到的,但不意味着每一篇都会囊括所有;同时,也并非意味着博客的目录结构就是如此。每篇博客内容请看后文中具体的目录。
知识梳理:为了完成目标算法,将会广泛地查阅有关文献资料。将所学知识、资料进行整理。会加入个人理解,一起进行分享。
工作内容:作为项目参与者,在整个项目中所担任的角色、完成的任务。包括个人任务,团队沟通与合作。
收获感悟:您可以简单理解为鸡汤。不过,不同于空洞的话语,在这里所记录的感悟和总结都是结合自身实际、结合项目实际的,相信您能看到博主是怎样的人,也愿您能从中获得启发和前进的动力。

1-关键词提取-任务理解&工作分配
2-关键词提取-代码运行云平台colab的使用
3-关键词提取-论文研读-RaKUn算法(1
4-关键词提取-论文研读-RaKUn算法(2
5-关键词提取-论文研读-betweenness centrality相关算法(1
6-关键词提取-论文研读-betweenness centrality相关算法(2
7-关键词提取-论文研读-load centrality的合理性探讨
8-在IDEA或Pycharm中解决编码问题
9-python:sort()和sorted()使用及对比
10-python:set的使用
11-python:most_common()函数
12-python:enumerate()函数
13-networkx的基础使用
14-收尾工作-答辩内容整理
15-收尾工作-组织协调

Representing text

1.使用有向图(directed graph):

2.代表一份文档,由组成。token, 语言学上指标记,标志) 因为tokens在文章中出现的顺序是确定的,所以D是一个有序集(ordered set)。

3.边:一种考虑隐含信息的做法是考虑单词的共同出现(co-occurrences, 以下简称co-occur),用一条边来表示。但是这意味着丢失了单词的顺序性质,也就是丢失了order.而这正是本文尝试做到的。

4.考虑order:遍历给定语料,将其中出现的以及之后的,通过给定的元素(目前看来主要就是这两点确定下来,读完全文发现后面还有权重的问题)形成一条边E.边的权重是出现的次数。最后连接起来形成一个完整的图,这样全局的文本信息通过权重,也隐式地完整保存了下来。当然,这些信息需要通过网络分析来找出,下文会接着介绍。

Improving graph quality by meta vertex construction

上文中所提到的最简单的实现方式,会生成有噪声的图,导致学习任务更困难。如何减少时间复杂度和空间复杂度,同时提高图的质量变成了接下来的重点内容。

1.考虑一些有可能的方案

(1)限制token的长度,只有超过指定长度的token才纳入考虑范围(**但是对于中文来说这种方式并不可行,**中文多是两字词语,再比如“我很爽”这一句话,“爽”一个字也是关键词,长度限制很可能没有意义。甚至对于英语原文来说,也可能会遗漏到一些关键信息

(2)Lemmatization, 词形还原。也就是将单词还原成最初的形式,如单复数,时态语态问题(**同样不适用中文,**毕竟中文少有这种变化。不过若将lemmatization看做是一种必要的预处理的话,中文不需要可以算是语言的天然优势吧

以上两种方式都可以减少顶点数,降低空间复杂度。

2.更深层次的做法:meta vertex construction. 合并类似的顶点,事实依据是具有相同词根的话可以映射成相同的关键词。这里除了常见的“名词–>形容词”这种同词根变化,论文中甚至举出了normal和abnormal这种例子,也就是说否定意味/形式的词语也可以归类在一起。在中文里,个人认为是”不开心“可以归类到”开心“这种做法的合理性如何看待?个人理解是,虽然词义是完全相反的,但都反映了一个共同的领域,比如刚刚提到的开心或者不开心,其实也都在“开心”这个领域内,就像很久之前流传的段子:“再慢也叫速度”,只要还在这个领域,就算是两个极端也能划分到一起。
此外还有其他的情况:拼写错误、一词多形(如英式和美式)、不规范拼写(包括缩写)等,都需要考虑。

3.Keyword identification: 类比于betweenness centrality的思想,在这里使用Load centrality。关键是需要弄清楚load的定义。论文中提到跟betweenness centrality确实是有所区别的,并且简单地提到了区别在哪里,但是阅读原文中的描述并不能让我理解。可能是因为英语对我而言确实还不像中文那样好理解,让我感到可能会有多义性,也就是我的理解可能跟作者原本想表达的不一致;另一方面也可能是因为我对于这个概念知之甚少,确实还需要这方面的知识,因此接下来的计划是前往论文中所给的引用链接,找到详细的介绍和说明。

收获感谢

第一次了解了lemmatization等基础的NLP处理相关知识,感觉对于NLP有了新的认知。之前接触的只有深度学习RNN提到过,有一个最初的印象。最近阅读这篇论文,查阅相关的名词解释、文档文献才发现原来NLP还有这么多子领域和基础名词知识,关键词提取只是其中的一种。可以说是极大地拓展了眼界。

待解决的问题

    以上就是本篇文章【4-关键词提取-论文研读-RaKUn算法(2)】的全部内容了,欢迎阅览 ! 文章地址:http://www.dbeile.cn/news/19.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 多贝乐移动站 http://lzlz0618.dbeile.cn/ , 查看更多   
最新新闻
从字符串中提取手机号_文本字符串中如何提取规则数据
### 回答1:可以使用正则表达式来提取字符串中的电话号码。例如,可以使用以下代码:text = 我的电话号码是:123-456-789,你可
【原】怎么才能通过健身,成功瘦下来?2个方法提高燃脂效率
  肥胖的人要减肥,需要迈开腿、管住嘴,提高热量缺口,才能让身材慢慢瘦下来。那么,怎么才能通过健身瘦下来,练出好身材呢?
健身房投资预算
  健身房加盟投资方案  投资健身俱乐部所花费用明细  一.2000-4000平米的高档健身俱乐部  投资约200-500万  二.器械:
# 全面解读巨量引擎API:功能介绍、应用场景与操作指南
巨量引擎作为国内领先的数字营销平台其API接口为开发者提供了丰富的广告投放、数据报表、素材管理等功能。本文将全面解读巨量引
【儿童友好】五一假期去哪玩?徐汇发布“侬好,西岸”儿童友好主题线路
  《上海市推进儿童友好城市建设三年行动方案(2023-2025年)》提出,加快推进公共空间和服务设施适儿化改造,打造一批让孩子
从刷屏全网到濒临破产,I Do踩了品牌营销的哪些坑?
图片来源@视觉中国文 | 刀法研究所,作者 | 晶敏2023 年的坏消息比以往来得更早一些。1 月 4 日,婚戒品牌 I Do 母公司恒信玺利
人社部:这些证书已取消,别再考啦!
许多人由于职业需要和对技能拓展的需求,会力所能及地考取各种证书。但并不是所有证书都是国家承认、值得考的,有些证书早已被取
为什么百度要给百家号引流 2024技术攻略!超好用)
那一天,百度给百家号引流的举动震动了整个网络行业,成为了关注的焦点。为什么百度要这么做呢?这背后的原因我想很多人都已经猜
在家练瑜伽不知道练哪些动作?瑜伽老师为你精选20个基础体式
  给大家整理了20个基础瑜伽体式。这20个基础体式,包括前屈、后弯、侧屈、扭转、倒置。从站姿开始到跪姿到仰卧和俯卧,有力量
中国第一网红是谁?2018中国网红排行榜
在2016年,人们称其为“网红元年”, 在搜索前排的各类网红中,找到了十个最具话题性的人物——Papi酱、王思聪、薛之谦、大张伟
本企业新闻
推荐企业新闻