目前搜索引擎作弊手段五花八門(mén)且層出不窮,作為應對方的搜索引擎,也相應調整技術(shù)思路,所以如果整理一下反作弊思路,則會(huì )發(fā)現技術(shù)方法很多,理清思路著(zhù)實(shí)不易。盡管如此,如果對大多數反作弊思路深入分析,會(huì )發(fā)現整體思路上還是有規律可循。從基本思路角度看,可以將反作弊手段大致劃分為以下3種:信任傳播模型、不信任傳播模型和異常發(fā)現模型。
1、信任傳播模型:在海量的網(wǎng)頁(yè)數據中,通過(guò)一定的技術(shù)手段或人工半人工手段,從中篩選出部分完全值得信任的頁(yè)面(可以理解為我們日常所說(shuō)的白名單),算法以這些白名單內的頁(yè)面作為出發(fā)點(diǎn),賦予白名單內頁(yè)面節點(diǎn)較高的信任度分值,其他頁(yè)面是否作弊,要根據其與白名單內節點(diǎn)鏈接關(guān)系來(lái)確定。白名單內節點(diǎn)通過(guò)鏈接關(guān)系將信任度分值向外擴散傳播,如果某個(gè)節點(diǎn)最后得到的信任度分值高于一定的值,則認為沒(méi)有問(wèn)題,如果低于這個(gè)值則會(huì )被判為作弊。
2、不信任傳播模型:從大的技術(shù)框架來(lái)講,與信任傳播模型極其相似。最大的區別在于:初始頁(yè)面自己不是值得信任的頁(yè)面節點(diǎn),而是確認存在作弊行為的頁(yè)面集合(即我們日常所說(shuō)的黑名單)。賦予黑名單內頁(yè)面節點(diǎn)不信任分值,通過(guò)鏈接將這種不信任關(guān)系傳播出去,如果最后頁(yè)面節點(diǎn)的不信任分值大于設定的那個(gè)值,則被判為作弊。
3、而異常發(fā)現模型:簡(jiǎn)單的譬如分析網(wǎng)頁(yè)內容來(lái)發(fā)現詞頻、鏈接等的異常,復雜點(diǎn)的像分析網(wǎng)站用戶(hù)行為異常等。異常發(fā)現模型往往和信任傳播模型和不信任傳播模型進(jìn)行組合處理。
事實(shí)上,純粹技術(shù)手段目前是無(wú)法徹底解決作弊的問(wèn)題,因此現在一般都是用戶(hù)在瀏覽搜索結果甚至是上網(wǎng)瀏覽時(shí)舉報作弊網(wǎng)頁(yè),搜索引擎公司內部會(huì )有專(zhuān)門(mén)的團隊來(lái)審核與主動(dòng)發(fā)現可疑頁(yè)面,經(jīng)過(guò)審核確認的網(wǎng)頁(yè)則可以放入黑名單或者白名單當中。綜上所述,必須將人工手段與技術(shù)手段相互結合,才能取得較好的反作弊效果。