批量修改采集内容标题???

这是一批来自采集内容的标题,因为“重复标题”比“重复正文”,后果严重一些。

所以对标题,进行二次处理,争取和原始标题,意思差不多,但又有些区别。

尝试第一招:片段颠倒

既已标点符号分割标题,然后再随机打乱。

结果“卒”

片段打乱后,通过“百度短文本相似度AI”跑一下,这就是100%一样啊

所以百度看待标题,不是一段str,而是str分词后的list,str再怎么乱,其list是一致的。

所以外面一些程序,比如采集一篇新闻,按段落打乱,或按句子打乱,都是无效的。

尝试第二招:二次翻译

结果“卒”

结果“略有尴尬”。

目测大部分满足可读,但是尴尬的是,有些词替换不是近义词,而是反义词。

由于近义词模块用的synonyms(主要是因为不花钱),可能该模块所定义的“近义”,是机器学习层面的‘相似性’,比如‘低调’和‘高调’经常出现在同一篇文档,则判定‘高调’是‘低调’的近义词

如果用汉语层面的近义词,比如用新华字典的近义词API(如果有的话),来替换当前的synonyms,应该效果好很多。至少不会将“低调”,替换成“高调”...

虽然相似度没有拉开很大,但总比“完全重复”强。

也并不是所有分词后的词项都进行同义词替换,为了满足大部分标题修改后,具备可读性,做了一些调整:

1)普通名词、动词、形容词、副词、动名词,进行同义词替换

2)一个字的,不做替换

3)助词、拟声词、叹词,删除

4)专有名词,不做替换(比如《人民的名义》)


关注公众号,免费刷快排。
转载请说明出处
奇点seo » 批量修改采集内容标题???

发表评论

欢迎 访客 发表评论

让流量从这里暴涨!

查看演示 官网购买