※ 本文為 dinos 轉寄自 ptt.cc 更新時間: 2013-05-27 06:48:33
看板 Gossiping
作者 標題 Re: [問卦] PTT主機配置為何的八卦
時間 Mon May 27 01:46:54 2013
※ 引述《wei502 (阿仁)》之銘言:
要善用google啊
--
原作者之前和同事做了「實價登錄地圖」(現在關站了~內政部太雞歪ㄌ)
現在又和朋友響應open data一起重做了教育部辭典
https://www.moedict.tw/
萌典〔教育部國語+臺灣閩南語常用詞辭典〕(民間線上版)
收錄十六萬筆國語、一萬六千筆臺語條目,每個字詞都可以輕按連到說明,並提供 Android 及 iOS 離線版。來源為教育部「重編國語辭典(修訂本)」及「臺灣閩南語常用詞辭典」,辭典本文的著作權仍為教育部所有。 ...
收錄十六萬筆國語、一萬六千筆臺語條目,每個字詞都可以輕按連到說明,並提供 Android 及 iOS 離線版。來源為教育部「重編國語辭典(修訂本)」及「臺灣閩南語常用詞辭典」,辭典本文的著作權仍為教育部所有。 ...
超好用 整合了教育部所有辭典於一站 還有中文斷詞、閩南語發音、國語發音..
-------------------------
作者 smartboy (很長長長長長長長的暱稱!)
標題 ptt 數據
時間 Sun Oct 18 01:32:27 2009
我偶爾會看 ptt 的一些統計圖觀察系統的行為,
常常看了之後在 irc 上零散的發表某些發現.
我想也許有必要整理成一份比較完整的樣子, 方便自己或其他人參考.
此外, 有感許多網站的數據不易取得, ptt 比較沒有競爭關係的考量,
公開這些數據讓大家知道 ptt 的規模,
也許對有興趣的網站開發者/管理者有幫助.
本文可轉載
注意, 以下數據只取樣少數天, 而且不見得是同一天. 僅供參考.
數字大都是從 rrd graph 裡目測的. 資料時間 2009/10
這裡這數據只有 ptt1, bbs 的部份, 不含 ptt2, 也不含 web
基本資料
註冊人數: 目前 124 萬多, 快到上限 125 萬了
同時上線人數: 目前上限設 15 萬, 估計若不限制 peak 有機會到 16~17 萬
看板數: 16411
看板文章總量: 24561137
個人信件總量: 45680788
精華區文章總量: 統計不易, 略
機器
8 CPU
64GB ram
3 組 raid, 各 12,12,4 顆硬碟, 有的用 raid5 有的 raid10
OS
linux, kernel 2.6.25.20
x86_64
bbs 資料主要使用 reiserfs, 其他用 xfs
切了一堆 partition, 每個 120G, 再把 bbs data 目錄 symbolic link 過去
頻寬
* 各時段差不多都是 in:out = 1:6
* 平均大約 in 8Mbps, out 49Mbps
* peak 大約是 in 66Mbps, out 110Mbps
* 95% 目測大約 95Mbps
disk storage
* 總資料量(以 file system block 計)約 430G (只計 board,man,home 的部份)
* 實際有效資料量
board 150G
man 49G
home 132G
total 332G
使用曲線/成長
* 每天的 login account 數, 平均約 40 萬. 每天都滿穩定大約是這個數字.
* 統計 10/9~10/(9+n-1), 有多少不重複的 login account:
n login
1 399243
2 506278
3 567910
4 607583
5 634238
6 655441
7 674246
8 690667
(另外找九月初跟十月初兩天當 base, 算出來的數據也差不多.)
綜合這些數字, 大概可以看出來, 雖然註冊帳號數一百多萬, 常用的 user 約
50~60 萬左右, 而這些 user 大約七八成會每天上線.
* 4am~8am 是人最少的時段, 6am 最少大約在 4 萬多, 8am 開始會穩定大約
每小時增加一萬人, 到 1pm 人數大致穩定, 4~5pm 人數會開始下滑 5k~10k 人.
大約 7pm 前會再開始增加, 也是約每小時 1~1.5 萬的速度.
peak 在 11:00~11:30 之間. 一過12 點, 人數馬上以每小時 2~3 萬的速度減少.
* 根據同時上線人數, 禮拜天到禮拜四, 這幾天的使用人數/使用量大致上差不多.
若天氣好的話, 禮拜五六兩天晚上明顯會比較少人, 大概少 3 萬剩 12 萬左右.
若下雨天, 人數有機會跟平常日差不多.
* 上站人數跟寒暑假有密切關係. 寒假大約只剩放假前的 65%, 暑假剩 88% 左右.
放完假人數會回到跟放假前差不多.
* 大致上並沒有一個簡單的數字可以看 ptt 成長的速度
- 註冊帳號數常會被註冊後棄置, 而且常常滿掉無法註冊
- 上站人數常受限於硬體, 而且其中包含不少 idle
- 各種站上活動會隨時間慢慢改變習慣, 或是受 bot 影響
(會這樣說是因為有的曲線並不如想像中那樣平緩上升或下降)
參考各統計數據, 我個人主觀估計, ptt 還在以每年約 10~20% 的速度成長.
各種統計
* 閱讀文章
閱讀時間與發文時間差, 各時段都差不多這比例
<12hr <1day <3day <7day old
62% 10% 9% 4% 13%
平均約每秒 470 篇
peak hour 每秒 1100 篇
(這是不是可以當作相當於平均每天 40M page view?)
* post 下午時段約每分鐘 40 次, peak hour 每分鐘 90 次
值得注意的是, post 數量一年來並沒有增加, 還緩慢減少..
(目測減少約 10%) 猜測跟推文盛行還有各大板發文條件變嚴有關.
* 推文 下午時段平均每秒 3 次, peak hour 每秒 7 次.
但這個數值容易受程式灌水/推文娃娃/推齊等因素影響, 數量比較不穩.
* 送訊息(水球), 下午時段約每秒 4 次, peak hour 約每秒 13 次.
自從 IM 開始流行後, 使用率逐年緩慢變小.
最明顯的記錄是 2006/09/11, msn 大斷線, 每秒水球使用次數 double,
還造成 ptt server loading 過高, 無法 login.
* talk 平均每小時 29 次 (含棋類對戰), peak hour 大約一小時 150 次.
* login: 平均每秒約 10 次, 白天約 10~13 次, peak hour 約 20 次
* logout: 在剛過半夜 12 點那時, 會瞬間大量 logout, 每秒可達約 30 次
系統
* read(2), write(2)
由於 bbs 的特性, user 每輸入一個 key 就會送一個封包, 程式就要 read 一次.
下午時段大約每秒 8000~10000 次 read.
peak hour 大約每秒 18000~20000 次.
write 幾乎跟 read 數量差不多.
(這邊只算 mbbsd 處理 user input 的 read/write)
* context switch
下午時段約每秒 23000 次, peak hour 約 53000 次
* loading: 當 disk busy 100% 時, OS loading 飆到上千是常有的事,
當有特殊狀況發生(譬如 peak hour 當站之類的), 會到
目前 loading 最高記錄是 2007/06/26 (換機器之前), 50051.13, 49961.52,
49302.06.
換機器後的記錄是 2008/03/10, 7682.94, 3073.47, 1347.52
現在在正常情況下, 白天 loading 大約 10~20, peak hour 會從 30 升到將近 100.
* memory: peak hour 時, free+buffer+cache 的量大約 24G
bot
* 兩年來至少有兩三千個帳號曾有疑似 bot/crwaler 行為(快速讀一堆文章)
* 以月為單位, 2008/04 以前 bot 很少, 或比較節制.
2008/05 開始突然出現約百隻. 2009/03~04 約到兩百.
* 以天為單位, 2009/09 幾乎每天都會活動的 bot 大概十來隻.
* 短期/次數不多的 bot 有可能是用工具程式掃文章備份.
其他
* 換機器前瓶頸在 ram (16G), 現在瓶頸在 disk io,
disk loading 大概再多 5% 就撐不住了
* 對某一時間, unique ip 佔上站人數 9x%
* (2007/11的數據)某天下午一點, 站上使用者約 45% 在用 pcman/kkman 之類的
anti-idle 掛在站上. 隨著 pcman 人口增加, 這個比例會再稍微上升
(pcman default anti-idle, kkman 不是).
在尖峰時段, 忘了. (偵測 anti-idle 的 code 已不存在)
* 從 2006/3 到 2009/2,
kkman 的使用率從 60% 降到 40%,
pcman 的使用率從 25% 升到 50%
(kkman 在 2009/4 推出新版, 目前還不能偵測, 因此沒有更新的數據)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.24.159
推 :恩 略懂1F 05/27 01:47
推 :只是把教育部網站砍了而已吧 沒什麼厲害的吧2F 05/27 01:48
推 :PTT:要壞掉啦>///<~~~~~~~~~3F 05/27 01:49
→ :實價登錄地圖也一樣 還不都拿官方資料改界面罷了4F 05/27 01:49
推 :很有參考價值 推5F 05/27 01:58
推 :可是超好用呀6F 05/27 02:04
推 :OS竟然是Linux? 以前聽說是用BSD去架的?7F 05/27 02:04
推 :最早是BSD沒錯8F 05/27 02:05
推 :不對 最早是linux....
→ :Linux -> FreeBSD -> Linux
推 :不對 最早是linux....
→ :Linux -> FreeBSD -> Linux
→ :喔喔~大概可以理解,因為聽說FreeBSD對硬體比Linux挑..11F 05/27 02:11
→ :現在的Linux基本上不要太奇怪的硬體,一般伺服器都可以裝
→ :比FreeBSD還好養...
→ :現在的Linux基本上不要太奇怪的硬體,一般伺服器都可以裝
→ :比FreeBSD還好養...
→ :不是硬體的問題啦..當時freebsd的檔案系統發展落後linux14F 05/27 02:14
→ :還有kernel對i/o處理的模式,linux有epoll
→ :freebsd好像是kqueue吧..總之ptt對i/o要求高,就只能換os
→ :還有kernel對i/o處理的模式,linux有epoll
→ :freebsd好像是kqueue吧..總之ptt對i/o要求高,就只能換os
推 :印象中FreeBSD5,6的這類問題有點大 7以後才有好一點17F 05/27 02:16
→ :不知有沒記錯
→ :但FreeBSD挑硬體確實是會有, 因為廠商不太放driver...
→ :不知有沒記錯
→ :但FreeBSD挑硬體確實是會有, 因為廠商不太放driver...
推 :fbsd沒有epoll的確很難撐上萬個socket同時連進來20F 05/27 02:27
推 :這搜尋介面大贏教育部的!21F 05/27 02:56
--
( ̄︶ ̄)b MaxColin 說讚!
瞎
guest
回列表(←)
分享