首页 > 资讯列表 > 编程/数据库 >> PHP

PHP通过中文字符比率来判断垃圾评论的方法

PHP 2014-12-09 07:12:03 转载来源: 网络整理/侵权必删

本文为大家讲解的是PHP通过中文字符比率来判断垃圾评论的方法,是一个比较实用的技巧,可以用在留言本页面,对于进行PHP应用程序开发来说有一定的参考借鉴价值,需要的朋友可以参考下 一、需求: 最近一段时间常常出现这类垃圾评论:一大段英文字符里夹杂一两个生僻汉字,包含了中文字符,而且又没包含啥中文的敏感词,所以就堂而皇之的通过了评论过滤。对这类评论的处理可以采取判断中文字符的比率来确认,但是也会存在一定的误判

本文为大家讲解的是PHP通过中文字符比率判断垃圾评论方法,是一个比较实用的技巧,可以用在留言本页面,对于进行PHP应用程序开发来说有一定的参考借鉴价值,需要的朋友可以参考下

一、需求:

最近一段时间常常出现这类垃圾评论:一大段英文字符里夹杂一两个生僻汉字,包含了中文字符,而且又没包含啥中文的敏感词,所以就堂而皇之的通过了评论过滤。对这类评论的处理可以采取判断中文字符的比率来确认,但是也会存在一定的误判。

二、解决方案:

要用到php的两个函数strlen和mb_strlen,strlen会把单个汉字长度认定为3,mb_strlen单个汉字长度为1。同一段字符通过两个函数取得的长度之差就是实际汉字字符数的二倍,除以二就得到实际的字符数,在与mb_strlen取得的长度求比值就得到汉字占总字符数的比率。

三、实现代码:

 

代码如下:
$len_all = strlen($comment['text']);                     
 $len_st = mb_strlen($comment['text'], 'UTF-8');
 if(($len_all-$len_st)/(2*$len_st) < 0.5){
        $error = "中文字符少于百分之五十"; 
 }

 

如果在评论中贴代码的话,就会造成中文字符比率低,需要过滤掉代码字段再来判断。

 


标签: PHP 通过 中文 字符 比率 判断 垃圾 评论 方法


声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持