※ 本文為 terievv 轉寄自 ptt.cc 更新時間: 2018-05-23 11:40:18
看板 PHP
作者 標題 [請益] file函數來讀網頁的問題
時間 Sun May 13 11:50:59 2018
寫了一個小程式讀網頁的原始碼並分析時,遇到一個問題,
就是用瀏覽器開某網址,是正常的。
但用php程式去讀那個網址,程式讀出來的網頁,和我看的不同。
例如:https://goo.gl/T6BcEx
(我在程式是沒縮網址的 只是在ptt網址超過一行才縮)
我想要讀出這本書的「責任者」、「版本」。
但是用file()函數去讀網址,卻讀不到這些東西,該顯示的地方,變成
元数据展现,元数据展现 暂时无法取用。
可能是網址裡的函數沒有讀進去吧!該怎麼解決?
01 $http="https://goo.gl/T6BcEx";
02 $buffer = file($http);
03 for($i=0;$i<sizeof($buffer);$i++)
04 echo $buffer[$i]."<BR>";
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.232.154.236
※ 文章代碼(AID): #1QzxObxW (PHP)
※ 文章網址: https://www.ptt.cc/bbs/PHP/M.1526183461.A.EE0.html
推 : 改用curl的方式試試看1F 05/13 16:19
推 : 就是有做反爬蟲 你先用postman測到跟網頁一樣正常顯示吧2F 05/13 22:47
→ : 我也有用curl試過,也是一樣。3F 05/13 23:23
→ : 不過現在問題解決了,我看到很多人爬網頁都有加這一行:
→ : curl_setopt($ch, CURLOPT_USERAGENT, "Google Bot");
→ : 我加上去,網頁就爬到了....好神奇
→ : 不過現在問題解決了,我看到很多人爬網頁都有加這一行:
→ : curl_setopt($ch, CURLOPT_USERAGENT, "Google Bot");
→ : 我加上去,網頁就爬到了....好神奇
推 : 應該是對方的網站有檢查user agent,像我的伺服器只要requ7F 05/14 12:13
→ : est檔頭沒有user agent就會擋
→ : est檔頭沒有user agent就會擋
--
※ 看板: terievv 文章推薦值: 0 目前人氣: 0 累積人氣: 102
作者 poeta 的最新發文:
- 台中市李姓女大生在停車場繳費後,找不到愛車,警方到場協助。圖/第三警分局提供 台中市李姓女大生近日騎機車前往台中車站附近,將機車停在收費停車場,她取車時,投 入磁扣付款,未料場內卻遍尋不到機車,李女 …142F 69推 8噓
- 我剛剛上網查資料 發現邦交國貝里斯的綠鬣蜥 居然瀕臨絕種 還要設置保育中心 看圖片 長得一模一樣沒錯吧 我們整台飛機裝滿運過去 請他們用白蝦交換 鞏固兩國邦誼 大家說好不好壓 …44F 19推
- 水溝裡面一堆吳郭魚 現在說不要污名化為外來種 要稱他們是美味的台灣鯛 綠鬣蜥能夠依循這條道路 變成可愛台灣蜥嗎88F 63推 1噓
- 12F 6推
- 立法院內政委員會今(13日)邀請內政部部長率同所屬列席報告業務概況,並備質詢。國 民黨立委牛煦庭質詢時指新青安政策讓房價升高,住宅基金這幾年經費負擔看起來不小, 明年編列預算更暴增到45.96億元。 …140F 67推 7噓
點此顯示更多發文記錄
回列表(←)
分享