百度贴吧发帖防删笔记

今天在研究百度贴吧群发防删,找了百度的两个专利文档,一个针对垃圾文字帖子识别,一个针对图片垃圾帖子识别,重点内容如下:

【垃圾图片帖子识别过程】

1、从待发表图片中提取图片的像素标识特征,有如下特征:

    1)灰度特征,为图片中各像素点的灰度值或灰度统计值;

    2)纹理特征,为图片中像素点的分布规律;

    3)SIFT特征,为采用SIFT特征提取算法对图片进行处理得到的特征;

    4)SURF特征,为采用SURF特征提取算法对图片进行处理得到的特征。

2、根据提取的像素标识特征和预先存储的已知作弊图片的作弊像素标识特征,对所述待发表图片进行作弊识别

意味着,我们做的防删图,与百度垃圾图片库里的图片,在灰度特征、纹理特征、SIFT特征、SURF特征上,区别越大越好

【垃圾文字帖子识别过程】

垃圾信息的特征模型基于以下至少任一项信息来建立:

- 与账号发布行为相关的信息;

- 与发布信息的内容相关的信息。

1、所述与账号发布行为相关的信息包括以下至少任一项:

    - 同一账号发布信息所对应的地点数量大于预定阈值;

    - 同一账号发布信息的频率大于预定阈值;

    - 同一账号发布信息所间隔的时间相等;

    - 同一账号发布的多个信息具有相同的内容。

    意味着:1)IP位置与账号尽可能绑定,全国混拨VPS不占优势,可能仅限一个地区的混拨VPS更合适    2)账号越多越好,将每个账号的发布间隔随机分隔开   3)不同帖子发布信息的主体部分(百度会提取)越多越好,

2、所述与发布信息的内容相关的信息包括以下至少任一项:

    - 发布信息的内容中包括指向低质量网页的网址;

    - 发布信息的内容中包括符合广告特征的字符串。

        1)符合广告关键词的字符串,例如“减肥药”、“化妆品”、“XX 牌减肥药”等。

        2)符合电话号码规则的字符串。例如,以“400”、“800”开头的十位数字字符串,或者,以“13”、“15”开头的十一位数字字符串等;再如,一些字符串中夹杂数字字符和特定的英文字符,如英文字符“I”、“O”,这些英文字符与数字字符“1”、“0”形似,因此,这些夹杂数字字符和特定的英文字符的字符串可能也符合电话号码规则,网络设备1 可采用与特定的英文字符形似的数字字符对其进行替换,以获取数字字符串,随后,网络设备1 检测该数字字符串是否属于符合电话号码规则的字符串。

        3)符合预置推荐模板的字符串;其中,预置的推荐模板基于表达推荐语气的关键词来获得。

        可通过统计多个垃圾信息中特定推荐内容前后的关键词,如出现在特定推广产品前后的关键词,来确定出现次数较多的表达推荐语气的关键词,例如,“不错”、“建议使用”等;接着,网络设备1 将这些关键词进行组合,以获得多个推荐模板,如“……不错,建议使用……”、“建议使用……,……不错”;随后,网络设备1 统计这些推荐模板在多个垃圾信息中出现的次数,将出现次数达到设定阈值的模板作为预置推荐模板。

MD上篇“运营工具箱导航”的文章,不知道被谁投诉,判定违规,原创功能被限制一段时间了,,,,


关注公众号,免费刷快排。
转载请说明出处
奇点seo » 百度贴吧发帖防删笔记

发表评论

欢迎 访客 发表评论

让流量从这里暴涨!

查看演示 官网购买