益大資訊~自己動手寫網路爬蟲 @ 益大資訊（原光華商場益大書局）益大電腦圖書專賣店

出版社：佳魁作者：羅剛 / 王振東

出版日：2011/03/17
ISBN：9789866143304
書號：KB1101

定價：550元 75折價：413元

有看部落格的才有此優惠喔

也可到露天購買http://goods.ruten.com.tw/item/show?21103231519839
內容簡介

第一本專門講解網路爬蟲開發的書籍，介紹如何利用雲端運算架構開發分布式爬蟲、介紹網路爬蟲開發中的關鍵問題與java實現。從基本的爬蟲原理開始講解，引領讀者入門；到重點講述雲端運算的相關內容及其在爬蟲中的應用。適用於需要實際應用搜尋引擎的程式師使用，或作為電腦相關專業科系參考教材。

章節目錄

第1章　全面剖析網路爬蟲
1.1 抓取網頁
1.2 寬度優先爬蟲和帶偏好的爬蟲
1.3 設計爬蟲佇列
1.4 設計爬蟲架構
1.5 使用多執行緒技術提升爬蟲性能
1.6 本章小結

第2章　分散式爬蟲
2.1 設計分散式爬蟲
2.2 分散式儲存
2.3 Google的成功之道 —— GFS
2.4 Google網頁儲存秘訣 —— BigTable
2.5 Google的成功之道 —— MapReduce演算法
2.6 Nutch中的分散式
2.7 本章小結

第3章　爬蟲的 "方方面面"
3.1 爬蟲中的"黑洞"
3.2 限定爬蟲和主題爬蟲
3.3 有"道德"的爬蟲
3.4 本章小結
PART 2 自己動手抓取資料

第4章　"處理" HTML 頁面
4.1 征服正則運算式
4.2 抽取HTML正文
4.3 抽取正文
4.4 從JavaScript中抽取資訊
4.5 本章小結

第5章　非HTML正文抽取
5.1 抽取PDF檔案
5.2 抽取Office文件
5.3 抽取RTF
5.4 本章小結

第6章　多媒體抽取
6.1 抽取視訊
6.2 聲音抽取
6.3 本章小結

第7章　去掉網頁中的 "雜訊"
7.1 "雜訊"對網頁的影響
7.2 利用"統計學"消除"雜訊"
7.3 利用 "視覺" 消除 "雜訊"
7.4 本章小結
PART 3 自己動手挖掘Web資料

第8章　分析Web圖
8.1 儲存Web"圖"
8.2 利用 Web "圖" 分析連結
8.3 Google的秘密 —— PageRank
8.4 PageRank 的兄弟HITS
8.5 PageRank與HITS的比較
8.6 本章小結

第9章　去掉重複的 "文件"
9.1 何為 "重複" 的文件
9.2 去除 "重複" 文件 —— 排除重複
9.3 利用 "語義指紋" 排除重複
9.4 SimHash排除重複
9.5 分散式文件排除重複
9.6 本章小結

第10章　分類與聚類別的應用
10.1 網頁分類.
10.2 網頁聚類
10.3 本章小結