北大青鸟【长沙科泰职业技术学校】欢迎您!!
400-696-8028
热门课程
行业动态
目前所在位置: 首页 > 行业动态

ava网络爬虫简单实现

来源:北大青鸟科泰校区  时间:2015-10-19

内容提要: [p=168, null, left]首先介绍每个类的功能:[p=180, null, left][size=168px]DownloadPage.java[p=180, null, left]的功能是下载此超链接的页面源代码[p=180, null, left]

 [p=168, null, left]*先介绍每个类的功能:

[p=180, null, left][size=168px]DownloadPage.java
[p=180, null, left]的功能是下载此超链接的页面源代码
[p=180, null, left][size=168px].
[p=180, null, left][size=168px]FunctionUtils.java
[p=180, null, left]的功能是提供不同的静态方法,包括:页面链接正则表达式匹配
[p=180, null, left][size=168px],
[p=180, null, left]获取
[p=180, null, left][size=168px]URL
[p=180, null, left]链接的元素
[p=180, null, left][size=168px],
[p=180, null, left]判断是否创建文件
[p=180, null, left][size=168px],
[p=180, null, left]获取页面的
[p=180, null, left][size=168px]Url
[p=180, null, left]并将其转换为规范的
[p=180, null, left][size=168px]Url,
[p=180, null, left]截取网页网页
[p=168, null, left]源文件的目标内容。
[p=180, null, left][size=168px]HrefOfPage.java
[p=180, null, left]的功能是获取页面源代码的超链接。
[p=180, null, left][size=168px]UrlDataHanding.java
[p=180, null, left]的功能是整合各个给类,实现
[p=180, null, left][size=168px]url
[p=180, null, left]到获取数据到数据处理类。
[p=180, null, left][size=168px]UrlQueue.java
[p=180, null, left]的未访问
[p=180, null, left][size=168px]Url
[p=180, null, left]队列。
[p=180, null, left][size=168px]VisitedUrlQueue.java
[p=180, null, left]已访问过的
[p=180, null, left][size=168px]URL
[p=180, null, left]队列。
[p=168, null, left]下面介绍*下每个类的源代码:
[p=180, null, left][size=168px]DownloadPage.java
[p=180, null, left]此类要用到
[p=180, null, left][size=168px]HttpClient
[p=180, null, left]组件。
 
相关推荐