自陸奇空降百度一事宣佈之後,外界對陸奇評論最多的一個詞無疑是「科技界最有權勢的華人」。確實,卡耐基梅隆大學助理研究員、IBM艾曼登研究中心研究員、雅虎搜索與廣告技術集團高級副總裁,甚至微軟集團全球執行副總裁都不足以說明他的重要性,引用微軟集團總裁史蒂夫·鮑爾默的評價:「陸奇能夠加盟微軟的原因是,他是全世界運營搜索業務的最佳人選。」
2016年對於百度來說,是風波不斷的一年,2017年伴隨陸奇的到任,一方面,百度目前最核心的搜索與廣告業務能否被二次啟動,成為科技圈矚目的焦點;另一方面一直被質疑無法短期變現的人工智慧業務能否開闢另一片戰場成為圈內外更為關注的重點話題。
另一邊,同樣作為站在潮頭的推動者、改變者,阿裏巴巴啟動了大數據打假,致力於依託大數據和互聯網技術,讓電商打假更有力、更高效、更透明。而BAT中素來最具備技術基因的百度,對於其搜索廣告平臺的治理又將拿出什麼樣的秘密武器呢?
 虛假廣告屢禁不止,治理難點是違規詞庫
談到百度,當然無法繞開搜索推廣業務。過去一年百度經歷的風波無一不與後者所牽涉的虛假廣告有關。事實上,百度搜索推廣從誕生伊始,與非法資訊和虛假廣告的鬥爭就從未停止過。百度統計數據顯示,2016年,百度全年查處非法資訊達16.9億條,平均每分鐘320條資訊以上,每天處理違規廣告量約1000萬,禁止的違法辭彙量超過30萬。僅在Q3季度,百度就處理了風險帳戶3163個,包含處罰帳戶672例,一線自查帳戶2491例。

a20770a382fc4770bec2763ad4fabdd1_th

虛假廣告屢禁不止有著多方面的原因,這些非法資訊一部分來源於資質企業提交的非法推廣資訊,另一方面則是由不法分子通過灰色產業鏈生成,主要表現為假冒官網、形聲字、變聲詞等。而導致治理困難的核心因素在於資質企業發佈非法資訊和違規詞庫建設的滯後性,尤其是後者,因為中文的複雜性,導致一個違規搜索詞往往有數十種變體詞,給人工審核造成了很大難度。
非法廣告的發佈,不僅侵害了線民的權益,更對作為平臺方的百度造成了極大不良影響和利益損害。因此,如何從規則上和技術上規範、嚴控百度推廣,不僅是線民、優質企業的需求,更是持續陷入輿論漩渦的百度推廣急需要解決的問題。
百度出臺准入規則,三重拳叫停虛假廣告
事實上,百度面臨的問題,也是世界範圍內搜索引擎平臺發展所遇到的重要阻礙因素。在這一背景下,百度公司於2016年8月公佈《百度推廣准入準則》,成為目前搜索行業內資訊上線最嚴格的企業,同時推出四大風控體系,三重拳叫停虛假廣告。

c02e657b00e148eea75e96466ebfad64_th

從公開的《百度推廣平臺治理報告》可以看到,出現在百度搜索結果中的每一條廣告,均需經過四大風控系統層層過濾:
首先,在准入門檻方面,審核要求再次提高,除了十大禁區外,再度加強對限制性行業的資質審查,針對國內商業環境複雜,誠信系統不夠完善等因素,設置了多維度身份驗證,嚴防套牌、盜號等資質造價行為;同時利用人工智慧秘密武器——百度文字識別技術(OCR)、仿冒證件檢測技術(圖像識別),對廣告主身份進行二度排查;在此基礎上,千人審核團隊24小時線上對資質審查進行最後把關。
第二,對資質企業發佈的廣告內容進行風控審查。事實上,資質企業每日投放的海量廣告,存在著嚴峻的違法違規及擦邊球問題。新規範再次利用人工智慧技術,對廣告圖像和文字同步進行審核。
最後,應對突發風險,打造全方位應急管道。基於TM、spark等每天進行百億級全網全庫巡檢,日處理400萬+推廣內容、站點,針對不法分子伺機作案的特點,小時級全網排查,5-10分鐘迅速處理個案問題,助力遭遇詐騙、釣魚的線民解決問題。
 人工智慧加持打假,進階更好的搜索引擎
在這三記重拳中,最值得稱道的是人工智慧的引入。不僅在准入口得以實現資訊的高效排查,更重要的是針對違規詞及不斷變化的辯體詞,基於人工智慧的全自動操作,實現了對推廣廣告各個環節的全自動核查和處理流程,一旦系統發現商戶帳戶涉及違法違禁內容就會直接下線。同時百度還將深度學習和大數據深挖技術應用到推廣客戶違規資訊的排查中來,以即時監控推廣企業網站是否涉及到黑產操作,並不斷檢測百度搜索中的網站是否存在收集用戶資訊、洩漏用戶隱私以及威脅到用戶財產安全的其他惡意行為。
在具體操作方面,OCR識別和圖像識別技術雙管齊下,對廣告主身份和廣告內容進行實施甄別。2016年Q3期間,百度文字識別(OCR)基於最新的深度學習技術,以姓名識別精度99.67%,號碼識別精度100%的優異表現,在國際文檔分類與識別大會(ICDAR)最具挑戰性的自然場景類文字識別任務中斬獲五項冠軍。而百度DeepImage圖像識別技術在全球人臉識別最權威的國際評測FDDB與LFW中,均獲得第一名成績,領先於騰訊、FACE++、linkface等同行,幾乎接近人腦水準,達到了99.77%的準確率。
目前百度已利用百度大腦AI通過提取頁面中文字和圖片資訊構建機器識別模型,通過對變體詞模擬、商標知識庫、風險詞挖掘三大違規行為的處理,對無行業許的醫療推廣等違規進行嚴厲打擊。同時借助百度獨有的搜索引擎反作弊演算法——綠蘿演算法:全面打擊超鏈仲介、出賣鏈接、購買鏈接等超鏈作弊行為。
同時還利用人工智慧和大數據打造百度信譽體系,對存在信用問題的廣告主絕不姑息。評級方法引入多維度資訊,並聯手權威第三方公司,以更真實的數據連通線上線下,杜絕非法資訊的輸出,保護信線民與廣告主的利益。
根據百度新公佈的打假成果資訊,在人工智慧和大數據加持下,2016年百度共下線2518家醫療機構、刪除1.26億條醫療廣告、把360103個辭彙關進搜索關鍵字黑名單、升級各行業廣告審核策略45次、完成超過80萬家企業的搜索資訊認證、通過審核拒絕16.9億條違法違規廣告、對44451個品牌詞進行搜索結果保護、完成3萬於起線民保障申請受理。百度用這8個數字對過去一年打擊虛假資訊、守護互聯網良性發展的戰鬥做出了最好的總結,同時也讓線民和企業看到了百度治理非法資訊、保護合規推廣的決心和行動。
更可喜的是,百度在人工智慧的軍備競賽中,充分挖掘了技術的可能性,將百度大腦這一未來前沿能力,有效應用在自身搜索引擎平臺的治理和規範上,這無疑屬於技術應用的一個場景。在廣告審核中應用技術只是一個創新,但未來是無盡想像的空間,這也就能理解,為何百度將下一個十年得技術方向,瞄準了人工智慧。
從前,百度在極大程度上改變中國線民的資訊獲取模式;未來,執人工智慧之牛耳的百度,又將會帶來哪些改變呢?對此,我們不妨拭目以待。

source from it.sohu.com