·设为首页收藏本站📧邮箱修改🎁免费下载专区🔐设置/修改密码👽群雄群聊
12下一页
返回列表 发布新帖

关键词库过滤重复 求方法

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
比如一堆词中有艾玛电动车
电动车艾玛      
艾玛的电动车
电动车艾玛
这类的词语义是差不多的,所以在生产内容的时候产出的内容大致都是差不多,这类词需要做下去重。

我参照了seo前线莫山的做法,对关键词分词,然后以分词为基点过滤重复。我用c#写了个小程序在处理,开了十几个线程速度还是非常慢,而且很吃内存。。。  你们有没有什么更好的方法来从语义上去重?



这个帖子查看人数在涨。。就是没人回帖。。
为了以表真诚,我把我用的代码附上。

关键词库过滤重复  求方法 关键,关键词,词库,过滤,重复

有没有做过类似的进来分享下方法
我要说一句 收起回复

评论19

TyCodingLv.8 发表于 2022-4-6 22:24:00 | 显示全部楼层
太简单了,我不懂
我要说一句 收起回复
独家记忆Lv.8 发表于 2022-4-6 22:24:49 | 显示全部楼层
我们都是要人工过一遍 纯程序的话不太行
我要说一句 收起回复
TyCodingLv.8 发表于 2022-4-6 22:25:06 | 显示全部楼层
人工不太现实,几十上百万词库的人工眼睛都看花、我现在这个方法可行 只是速度太慢太吃内存了。看有没有更高效的方法
我要说一句 收起回复
独家记忆Lv.8 发表于 2022-4-6 22:25:57 | 显示全部楼层
太简单了,我也不懂
我要说一句 收起回复
拾光Lv.8 发表于 2022-4-6 22:26:04 | 显示全部楼层
Python 结巴分词去重
我要说一句 收起回复
浅生Lv.8 发表于 2022-4-6 22:26:51 | 显示全部楼层
是这个路数。但速度真的太慢了,而且非常吃内存。。看看有没有更高效的方法
我要说一句 收起回复
IT618发布Lv.8 发表于 2022-4-6 22:27:34 | 显示全部楼层
吧汉字转换唯一int数据 ,内存存int比较,把“的 了”这类无意词去掉
我要说一句 收起回复
TyCodingLv.8 发表于 2022-4-6 22:28:10 | 显示全部楼层
类似谷歌simhash算法对吧。。。其实那个更不现实,操作起来很难适应场景
我要说一句 收起回复
TyCodingLv.8 发表于 2022-4-6 22:29:08 | 显示全部楼层
不用那个 就是比较int ,simhash意思就int占内存小
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图

您的IP:3.133.137.17,113.219.142.53,GMT+8, 2024-5-4 19:02 , Processed in 0.213988 second(s), 147 queries , Gzip On, Redis On.

Based on Discuz! W1.0 Licensed

© 2001-2024 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表