|
二、采集新目標(biāo)
目標(biāo)地址:
1、http://www.tiansou.NET/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.NET/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以選取兩個目標(biāo)頁面,是因為以上的兩個頁面一個有分頁,而另一個沒有,并且在分頁和全文取樣部分有較大的差別。以下的說明是在為采集目標(biāo)地址(首頁)全部鏈接的基礎(chǔ)上改動的,個別地方會顯得蛇足,只為說明的方便。
目標(biāo)文字部分頭部代碼1:

目標(biāo)文字部分頭部代碼2:

通過比較不難發(fā)現(xiàn),兩個文字部分的開始采集部分能確定下來為描黑部分,開頭部分好說,代碼如下:
復(fù)制代碼 代碼如下:
<TR>
<TD height="8"></TD>
</TR>
<TR>
<TD valign="top" class=ConNET><p>
目標(biāo)文尾及分頁區(qū)域代碼1:

目標(biāo)文尾及分頁區(qū)域代碼2:

比較一下兩個結(jié)尾,盡管想把第一個的結(jié)尾再往前提一點,但沒法子,要考慮到全部鏈接的共同部分,就只好取描黑的部分了,這也給今后確定過濾規(guī)則添了點麻煩,這是后話。先把結(jié)尾部分確定了吧:
復(fù)制代碼 代碼如下:
</p>
</TD>
</TR>
php技術(shù):dede3.1分頁文字采集過濾規(guī)則詳說(圖文教程)續(xù)二,轉(zhuǎn)載需保留來源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。