python筛选seo相似词叠词分词重复,众所周知,在建设词库的时候,会采集到很多,叠词,和分词重复的词,这类的词,聚合页,往往搜索的结果是一致的,造成重复页面,怎么去掉这类的词,成了比较困难的问题,所以小编写了下面的一个小小的脚本解决这个问题。
import jieba
for line in open('cibiao','urllist+',encoding='utf-8'):
seg_list = jieba.cut(line.strip())
list1=list(seg_list)
print(list1)
list2=list(set(list1))
list2.sort(key=list1.index)
print(list2)
if len(list1)==2 and list1 !=list2:
print(list1,list2)
with open('dieci.txt', 'a+', encoding='utf8')as f:
f.writelines(str(list1[0].strip())+str(list2[0].strip()+'\n'))
ps,词库量超过十万,不建议用这个低级的脚本,因为七万的词,跑了将近两天才跑完,如果大家有更好的关于python筛选seo相似词叠词分词重复的解决方案,请于下方留言。关注公众号,免费刷快排。
转载请说明出处
奇点seo » python筛选seo相似词_叠词_分词重复
奇点seo » python筛选seo相似词_叠词_分词重复