王者歸來:自己動手寫網路爬蟲(附範例CD)

作者:羅剛、王振東

出版社:佳魁資訊

出版日期:2012年01月16日

語言:繁體中文 ISBN:9789866007279

書號:ZB1202

定價:550元 75折價:413元

有看部落格的才有此優惠喔

也可到露天購買http://goods.ruten.com.tw/item/show?21201318147628
內容簡介

當你在飆網時,是否知道還有一類特殊的網路使用者也再網際網路上默默的工作著,他們就是網路爬蟲。這些網路爬蟲按照設計者預定的方式,在網路中穿梭,同時自動蒐集有用的資訊,進行分類和整理,將整理結果提供給使用者,方便使用者尋找他們感興趣的內容。由於網路爬蟲的實用性,引起很多程式師,特別是Web程式師的興趣。

  本書是第一本專門講解網路爬蟲開發的書籍,將理論與實作相結合,介紹如何利用雲端運算架構開發分布式爬蟲、介紹網路爬蟲開發中的關鍵問題與java實現。從基本的爬蟲原理開始講解,引領讀者入門;到重點講述雲端運算的相關內容及其在爬蟲中的應用。適用於需要實際應用搜尋引擎的程式師使用,或作為電腦相關專業科系參考教材。

章節目錄

PART1自己動手抓取資料

第1章 全面剖析網路爬蟲
1.1抓取網頁
1.2寬度優先爬蟲和帶偏好的爬蟲
1.3設計爬蟲佇列
1.4設計爬蟲架構
1.5使用多執行緒技術提升爬蟲性能
1.6本章小結

第2章 分散式爬蟲
2.1設計分散式爬蟲
2.2分散式儲存
2.3Google的成功之道──GFS
2.4Google網頁儲存秘訣──BigTable
2.5Google的成功之道──MapReduce演算法
2.6Nutch中的分散式
2.7本章小結

第3章 爬蟲的“方方面面”
3.1爬蟲中的“黑洞”
3.2限定爬蟲和主題爬蟲
3.3有“道德“的爬蟲
3.4本章小結
PART2自己動手抓取資料

第4章 “處理”HTML頁面
4.1征服正則運算式
4.2抽取HTML正文
4.3抽取正文
4.4從JavaScript中抽取資訊
4.5本章小結

第5章 非HTML正文抽取
5.1抽取PDF檔案
5.2抽取Office文件
5.3抽取RTF
5.4本章小結

第6章 多媒體抽取
6.1抽取視訊
6.2聲音抽取
6.3本章小結

第7章 去掉網頁中的“雜訊”
7.1“雜訊“對網頁的影響
7.2利用“統計學“消除“雜訊”
7.3利用“視覺”消除“雜訊”
7.4本章小結
PART3自己動手挖掘Web資料

第8章 分析Web圖
8.1儲存Web“圖”
8.2利用Web“圖”分析連結
8.3Google的秘密──PageRank
8.4PageRank的兄弟HITS
8.5PageRank與HITS的比較
8.6本章小結

第9章 去掉重複的“文件”
9.1何為“重複”的文件
9.2去除“重複”文件──排除重複
9.3利用“語義指紋”排除重複
9.4SimHash排除重複
9.5分散式文件排除重複
9.6本章小結

第10章 分類與聚類別的應用
10.1網頁分類
10.2網頁聚類
10.3本章小結

arrow
arrow
    全站熱搜

    ETAITBOOK08 發表在 痞客邦 留言(0) 人氣()