作者 thelittleone (風真いろは大好き♡♥ )標題 [新聞] Google內部文件外洩,搜尋引擎運作細節時間 Fri May 31 14:26:33 2024
Google內部文件外洩,搜尋引擎運作細節引猜疑
iThome
文/李建興 | 2024-05-31發表
近期網路上流傳一份Google內部描述搜尋引擎運作細節的API文件,在一段時間的沉默後,G
oogle終於發出聲明,警告外界不要根據缺乏脈絡與不完整的資訊,對搜尋做出不準確的假
設,並強調他們已經分享了大量搜尋運作的方式,同時也致力於保護搜尋結果不被操縱。
之所以該文件引起搜尋引擎最佳化(SEO)專家的注意與興趣,是因為其中描述的細節與Goo
gle過去公開聲明的資訊相矛盾,包括不使用網域權重、不使用點擊評份以及沒有使用沙箱
等。
Sparktoro共同創辦人Rand Fishkin在5月初的時候收到了一份匿名寄送的信件,內容是一份
Google搜尋部門內部的API文件,而這份文件經過前Google員工、iPullRank執行長同時也是
SEO專家的Mike King檢視,初步認定可信度極高,再加上Google最新的聲明,更間接證實了
該份文件確實來自Google。
Google遭洩漏的API文件超過2,500頁,涵蓋2,596個模組14,014項屬性,Mike King指出,這
份文件的內容與不少Google過去所公開的搜尋規則相矛盾,他認為,Google的發言人從系統
運作方面誤導SEO工程師,以及潛在的垃圾郵件發送者,使得外界無法得知影響尋引擎的方
法。
Mike King提及數項文件與Google公開宣稱不符的資訊,包括Google曾經多次說過,Google
搜尋不使用網域權重,但是文件中載明有一個稱為siteAuthority的指標,用於評估網站權
重,siteAuthority指標存在於Google的Compressed Quality Signals中,並在Q*排名系統
中使用,而這項資料與Google官方聲明相矛盾。
Google官方過去也否認使用點擊資料進行排名,但是Google搜尋中的NavBoost系統顯示,Go
ogle確實使用不良點擊、良好點擊和最後的長點擊(Long Click)行為作為排名演算法的一
部分指標。不只如此,官方多次否定的沙箱機制,在文件中的PerDocData模組,顯示出確實
存在一個hostAge屬性,Mike King指出,Google在某些情況下會根據網站年齡和缺乏信任的
訊號,來對網站進行隔離處理。
另外,Google也多次對外宣稱不使用Chrome資料作為搜尋的一部分,但是Mike King根據洩
露的文件表示,Google確實使用了Chrome資料,來自Chrome存取的資料被用於即時增強訊號
的一部分,用於提升搜尋結果的品質和相關性。
不過值得注意的是,Mike King指出,雖然有許多Google搜尋用到的特徵被揭露出來,但是
從文件中,目前還無法看出各特徵在下游的評分函式權重,因此也不確定這些特徵具體使用
方式。不過,由於該文件洩漏了2024年3月Google搜尋內容儲存的現行架構,以及相關程式
碼提交歷史,證明這份資料是新資訊。
https://www.ithome.com.tw/news/163204
--
https://i.imgur.com/edDklnN.gif
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.121.91 (臺灣)
※ 作者: thelittleone 2024-05-31 14:26:33
※ 文章代碼(AID): #1cMMsR_L (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1717136795.A.FD5.html
→ a27588679: 跟我想的差不多1F 180.177.33.135 台灣 05/31 14:27
推 windlands: 憨川又調皮了3F 120.127.237.146 台灣 05/31 14:27
→ ltytw: 有需要外洩嗎? 不是都被摸索的差不多了?4F 114.33.46.227 台灣 05/31 14:29
推 reaturn: 大家不是都知道?不然天網外號怎麼來的6F 220.143.100.125 台灣 05/31 14:34
--