过去的几年里,和中国大部分网站一样,南阳的企业公司网站更新大多也都是靠在百度上找点图片,找点内容复制粘贴一下,不过今后这招可能不起作用了,因为最近百度的一项调查显示,将近八成的网站都是靠复制粘贴来运营,造成的直接后果就是,网民在百度搜索发现很多内容都是相似的,没有什么价值的,大家都想找点部一样的东西,可是现在不管是传统媒体还是娱乐网站,甚至一些大学图书馆发的还书通知都都复制粘贴的。可以说,原创的内容基本上都被重复的复制粘贴内容给掩盖了,造成用户很难找到自己想要的东西。
转载和采集,分流了优质原创网站的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。 尤其是个别大量的网站,练复制粘贴都懒得弄,直接开发采集机器批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。 面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,百度公司抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。 互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。百度公司的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。 目前,百度公司的原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。 从百度这次更新对原创的重视来看,原创是互联网络的环境问题,需要网民和站长来共同维护,网站要多做原创,多推荐原创,因为百度将持续努力改进排序算法,鼓励原创内容,为原创内容的网站提供了合理的排序和流量。所以只要网站做好原创的内容,就是不用怎么优化,排名也会自然而然的排在前面的。
|