在使用了google後
覺得如果能夠設計一隻,能幫自己上網去摘錄想要關鍵字
於是開始計畫幫自己養一隻蜘蛛。
在PHP上有一套開放原始碼的垂直搜尋引擎的產品
phpdig官網
http://www.phpdig.net/
目前版本我看到是停留在2005年
先下載他的原始碼來分析一下該如何做。
主要想了解的是,分析一個網頁後,會對該網頁建立一個詞彙表
方便統計,也加速查詢~~
而且他也支援需多不同的格式,例如PDF,Word,Excel,PowerPoint
目前得知的是phpdig對中文依然有問題~~
先看他的程式碼,有心得在繼續分享...
沒有留言:
張貼留言