小偷&小偷入库&采集入库(3)


Dim Url,Html 
Url="http://wmjie.51.net/swords/" 
Html = getHTTPPage(Url) 
Response.write Html 
%> 

------------------------------------------------------ 
代码: 
'代码]用XMLHTTP读取远程文件 

<% 
Response.Buffer = True 
Dim objXMLHTTP, xml 
Set xml = Server.CreateObject("Microsoft.XMLHTTP" 

xml.Open "GET", "http://wmjie.51.net/swords/diary.rar", False 

xml.Send 

' Add a header to give it a file name: 
Response.AddHeader "Content-Disposition", _ 
              "attachment;filename=mitchell-pres.zip" 

' Specify the content type to tell the browser what to do: 
Response.ContentType = "application/zip" 

' Binarywrite the bytes to the browser 
Response.BinaryWrite xml.responseBody 

Set xml = Nothing 
%> 



------------------------------------- 
如何写ASP入库小偷程序 
入库小偷的原理也很简单:就是用XMLHTTP远程读取网页的内容,然后根据需要,对读到的内容进行加工(过滤,替换,分类),最后得到自己需要的数据,加入到数据库中。 
首先:我们先用XMLHTTP读取远程网页(我的另一片文章中有介绍)。 
其次:对内容进行过滤,这个是比较关键的步骤,比如说,我要从远程网页上提取出所有url连接,我应该怎么做呢? 
代码: 
‘这里用的是正则式 
Set objRegExp = New Regexp   '建立对象 
objRegExp.IgnoreCase = True   '大小写忽略 
objRegExp.Global = True       '全局为真 
objRegExp.Pattern = "http://.+?"   '匹配字段 
set mm=objRegExp.Execute(str)   '执行查找,str为输入参数 
For Each Match in mm     '进入循环 
    Response.write(Match.Value)   '输出url地址 
next 


然后,我们需要根据需要做一些替换功能,把不必要的数据替换掉,这个比较简单,用Replace函数即可。 
最后,进行数据库操作 
------------------------------- 
一个例子 
代码: 
<% 
On Error Resume Next 
Server.ScriptTimeOut=9999999 
Function getHTTPPage(Path) 
    t = GetBody(Path) 

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/3676.html