百度工程师解密百度原创识别“起源”算法细节 _博文列表

百度工程师解密百度原创识别“起源”算法细节

网络 2014/6/24 12:36:40

5月17日消息：昨日，百度搜索团队工程师LEE发布文章表示，百度已经抽调大量人员组成原创项目组，致力构建原创环境，推动中文互联网的前进。同时，百度披露了原创识别系统-“起源”算法的部分细节。
据百度工程师LEE称，百度原创识别系统，在百度大数据的云计算平台上开展，能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先，通过内容相似程度来聚合采集和原创，将相似网页聚合在一起作为原创识别的候选集合；其次，对原创候选集合，通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页；最后，通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
同时LEE表示，通过实验以及真实线上数据，百度原创识别“起源”算法已经取得了一定的进展，在新闻、资讯等领域解决了绝大部分问题。
百度站长平台LEE发布的全文内容如下：谈谈原创项目那点事
一、搜索引擎为什么要重视原创
1.1 采集泛滥化
来自百度的一项调查显示，超过80%的新闻和资讯等都在被人工转载或机器采集，从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测，甚至高校图书馆发的催还通知都有站点在做机器采集。可以说，优质原创内容是被包围在采集的汪洋大海中之一粟，搜索引擎在海中淘粟，是既艰难又具有挑战性的事情。
1.2 提高搜索用户体验
数字化降低了传播成本，工具化降低了采集成本，机器采集行为混淆内容来源降低内容质量。采集过程中，出于无意或有意，导致采集网页内容残缺不全，格式错乱或附加垃圾等问题层出不穷，这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验，这里讲的原创为优质原创内容。
1.3 鼓励原创作者和文章
转载和采集，分流了优质原创站点的流量，不再具属原创作者的名称，会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性，不利于创新，不利于新的优质内容产生。鼓励优质原创，鼓励创新，给予原创站点和作者合理的流量，从而促进互联网内容的繁荣，理应是搜索引擎的一个重要任务。
二、采集很狡诈，识别原创很艰难
2.1 采集冒充原创，篡改关键信息
当前，大量的网站批量采集原创内容后，用人工或机器的方法，篡改作者、发布时间和来源等关键信息，冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。
2.2 内容生成器，制造伪原创
利用自动文章生成器等工具，“独创”一篇文章，然后安一个吸引眼球的title，现在的成本也低得很，而且一定具有独创性。然而，原创是要具有社会共识价值的，而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特，但是不具社会共识价值，此类伪原创是搜索引擎需要重点识别出来并予以打击的。
2.3 网页差异化，结构化信息提取困难
不同的站点结构化差异比较大，html标签的含义和分布也不同，因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全，又提得准，还要最及时，在当前的中文互联网规模下实属不易，这部分将需要搜索引擎与站长配合好才会更顺畅的运行，站长们如果用更清晰的结构告知搜索引擎网页的布局，将使搜索引擎高效地提取原创相关的信息。
三、百度识别原创之路如何走？
3.1 成立原创项目组，打持久战
面对挑战，为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进，我们抽调大量人员组成原创项目组：技术、产品、运营、法务等等，这不是临时组织不是1个月2个月的项目，我们做好了打持久战的准备。
3.2 原创识别“起源”算法
互联网动辄上百亿、上千亿的网页，从中挖掘原创内容，可以说是大海捞针，千头万绪。我们的原创识别系统，在百度大数据的云计算平台上开展，能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先，通过内容相似程度来聚合采集和原创，将相似网页聚合在一起作为原创识别的候选集合；其次，对原创候选集合，通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页；最后，通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
目前，通过我们的实验以及真实线上数据，“起源”算法已经取得了一定的进展，在新闻、资讯等领域解决了绝大部分问题。当然，其他领域还有更多的原创问题等待“起源”去解决，我们坚定的走着。
3.3 原创星火计划
我们一直致力于原创内容的识别和排序算法调整，但在当前互联网环境下，快速识别原创解决原创问题确实面临着很大的挑战，计算数据规模庞大，面对的采集方式层出不穷，不同站点的建站方式和模版差异巨大，内容提取复杂等等问题。这些因素都会影响原创算法识别，甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境，站长推荐原创内容，搜索引擎通过一定的判断后优待原创内容，共同推进生态的改善，鼓励原创，这就是“原创星火计划”，旨在快速解决当前面临的严重问题。另外，站长对原创内容的推荐，将应用于“起源”算法，进而帮助百度发现算法的不足，不断改进，用更加智能的识别算法自动识别原创内容。
目前，原创星火计划也取得了初步的效果，一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等，并且在排序及流量上也取得了合理的提升。
最后，原创是生态问题，需要长期的改善，我们将持续投入，与站长携手推动互联网生态的进步；原创是环境问题，需要大家来共同维护，站长们多做原创，多推荐原创，百度将持续努力改进排序算法，鼓励原创内容，为原创作者、原创站点提供合理的排序和流量。

阅读(1567) 分享(0)

上一篇: 网页分页数据的三种抓取方式破解（webform分页）
下一篇: 怎样判断真假百度蜘蛛