从《网页降噪助你晋升搜索引擎表示》来做php正

从这个文章上看“网页降噪”其实就是要打消、消除这些多余、反面谐,从而突出更重要的主体内容的事情。
   噪点在原文宏观上看:即页面的内容、模版机关、样式,此类较为常见的有:内容版权声明、民众导航、民众底部声明(公司先容、雇用、存案信息等)这些多半可以看作是网页中的噪点!
   噪点在原文微观上看:即文章内容中的文字、标记,此类较为常见的是一些助词(的、地、得、着、了、之、乎、者、也、矣......)、非凡标记(星星啊、月亮啊、太阳啊)、无效代码等;

以上是从《网页降噪助你晋升搜索引擎表示》摘出的英华内容,恰好我想做泛收罗,照旧很有用的,因为文中的噪点在正文提取来说就是过滤非正文内容。

我做了小结

一、样式噪点主要是有内嵌样式和行内样式,好比:

<style type="text/css">....囧....</style>

<p>

当样式中有大量的中文注释,一定会发生噪点,不能只过滤掉<style>标签,要把整个样式都去掉。
以下php代码会过滤css样式

//php删除内嵌样式 $html = '前内容 <style type="text/css">....囧....</style>后内容'; $html = preg_replace('/<style.*?>.*?<\/style>/is', '', $html); highlight_string($html); //php删除行内样式 $html = '<p>'; $html = preg_replace('/ style=("|\').*?\1/is', '', $html); highlight_string($html);

二、内容版权声明噪点
      版权可以是网站名称、网址、网址简称,如:  转载于..囧..   、   转载自..囧..    、 作者:..囧.. 、   copyright © ..囧..  等信息,这些信息不是纯真地呈此刻footer底部,很大概呈此刻正文标题四周、内容尾部、要害字链接等部门。
      因为环境许多,实在是许多,那判定会很巨大的,php过滤代码只上个或许:

$html = preg_replace('/(噪点词前位特征1|噪点词前位特征2|......).*?\s+/is', '', $html);

三、民众导航噪点
 导航有个很明明的特征:就是无长文本、要害词会合、位置漫衍平均、html标签统一等特点。
 php代码不上了,说个根基思路:
 1、可以把所有html标签换空格,统计文本长度,文本空格密度。
 2、对付有class="menu" 、id="nav" 等标签举办判定。
 3、一般来说 有ul li 会合的处所不是文章列表就是导航了。

四、文章内容中的文字、标记噪点
 与其说是文章内容的噪点,不如说是正文的特征了、这个就是我们所要的正文部门了。
 如  中文助词: “的、地、得、着、了、之、乎、者、也” 
     非凡标记: “,。、!?”
     无效代码: <!-- content start -->  <!-- content end --> <div> 告白代码 等内容

 php代码也不上了:
 
 1、统计长文本中 中文助词的次数比,找到比例符合位置。
 2、对非凡标记举办支解:
  先
    $word = array(",", "。", "、", "!", "?");
    $html = str_replace($word, ',', $html);
    $arr = explode(',', $html);
  再
    分块统计$arr数量,
    一般大于必然量会有惊喜。
 3、无效代码也有必然的特征,可以简朴判定。

enenba.com原创内容,转载保存出处?post=251

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/7794.html