Java爬虫抓取视频网站下载链接

本篇文章抓取目标网站的链接的基础上，进一步提高难度，抓取目标页面上我们所需要的内容并保存在数据库中。这里的测试案例选用了一个我常用的电影下载网站（http://www.80s.la/）。本来是想抓取网站上的所有电影的下载链接，后来感觉需要的时间太长，因此改成了抓取2015年电影的下载链接。

一原理简介

其实原理都跟第一篇文章差不多，不同的是鉴于这个网站的分类列表实在太多，如果不对这些标签加以取舍的话，需要花费的时间难以想象。

Java爬虫抓取视频网站下载链接

分类链接和标签链接都不要，不通过这些链接去爬取其他页面，只通过页底的所有类型电影的分页去获取其他页面的电影列表即可。同时，对于电影详情页面，仅仅只是抓取其中的电影标题和迅雷下载链接，并不进行深层次的爬行，详情页面的一些推荐电影等链接通通不要。

Java爬虫抓取视频网站下载链接

最后就是将所有获取到的电影的下载链接保存在videoLinkMap这个集合中，通过遍历这个集合将数据保存到MySQL里

二代码实现

实现原理已经在上面说了，并且代码中有详细注释，因此这里就不多说了，代码如下：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

									package action;

									import java.io.BufferedReader;

									import java.io.IOException;

									import java.io.InputStream;

									import java.io.InputStreamReader;

									import java.net.HttpURLConnection;

									import java.net.MalformedURLException;

									import java.net.URL;

									import java.sql.Connection;

									import java.sql.PreparedStatement;

									import java.sql.SQLException;

									import java.util.LinkedHashMap;

									import java.util.Map;

									import java.util.regex.Matcher;

									import java.util.regex.Pattern;

									public class VideoLinkGrab {

									  public static void main(String[] args) {

									    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();

									    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");

									  }

									  /**

									   * 将获取到的数据保存在数据库中

									   * 

									   * @param baseUrl

									   *      爬虫起点

									   * @return null

									   * */

									  public void saveData(String baseUrl) {

									    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存储链接-是否被遍历

									    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 视频下载链接

									    String oldLinkHost = ""; // host

									    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn

									    Matcher m = p.matcher(baseUrl);

									    if (m.find()) {

									      oldLinkHost = m.group();

									    }

									    oldMap.put(baseUrl, false);

									    videoLinkMap = crawlLinks(oldLinkHost, oldMap);

									    // 遍历，然后将数据保存在数据库中

									    try {

									      Connection connection = JDBCDemo.getConnection();

									      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {

									        PreparedStatement pStatement = connection

									            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");

									        pStatement.setString(1, mapping.getKey());

									        pStatement.setString(2, mapping.getValue());

									        pStatement.executeUpdate();

									        pStatement.close();

									//       System.out.println(mapping.getKey() + " : " + mapping.getValue());

									      }

									      connection.close();

									    } catch (SQLException e) {

									      e.printStackTrace();

									    }

									  }

									  /**

									   * 抓取一个网站所有可以抓取的网页链接，在思路上使用了广度优先算法 对未遍历过的新链接不断发起GET请求， 一直到遍历完整个集合都没能发现新的链接

									   * 则表示不能发现新的链接了，任务结束

									   * 

									   * 对一个链接发起请求时，对该网页用正则查找我们所需要的视频链接，找到后存入集合videoLinkMap

									   * 

									   * @param oldLinkHost

									   *      域名，如：http://www.zifangsky.cn

									   * @param oldMap

									   *      待遍历的链接集合

									   * 

									   * @return 返回所有抓取到的视频下载链接集合

									   * */

									  private Map<String, String> crawlLinks(String oldLinkHost,

									      Map<String, Boolean> oldMap) {

									    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循环获取到的新链接

									    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 视频下载链接

									    String oldLink = "";

									    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {

									      // System.out.println("link:" + mapping.getKey() + "--------check:"

									      // + mapping.getValue());

									      // 如果没有被遍历过

									      if (!mapping.getValue()) {

									        oldLink = mapping.getKey();

									        // 发起GET请求

									        try {

									          URL url = new URL(oldLink);

									          HttpURLConnection connection = (HttpURLConnection) url

									              .openConnection();

									          connection.setRequestMethod("GET");

									          connection.setConnectTimeout(2500);

									          connection.setReadTimeout(2500);

									          if (connection.getResponseCode() == 200) {

									            InputStream inputStream = connection.getInputStream();

									            BufferedReader reader = new BufferedReader(

									                new InputStreamReader(inputStream, "UTF-8"));

									            String line = "";

									            Pattern pattern = null;

									            Matcher matcher = null;

									            //电影详情页面，取出其中的视频下载链接，不继续深入抓取其他页面

									            if(isMoviePage(oldLink)){

									              boolean checkTitle = false;

									              String id="codetool">

注：如果想要实现抓取其他网站的一些指定内容的话，需要将其中的一些正则表达式根据实际情况进行合理修改

三测试效果

Java爬虫抓取视频网站下载链接

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持服务器之家。

延伸 · 阅读

2020-06-24java使用Socket类接收和发送数据
2020-06-24Java爬虫实战抓取一个网站上的全部链接
2020-06-24JAVA 数据结构链表操作循环链表
2020-06-24Java 数据结构链表操作实现代码
2020-06-24java实现zip,gzip,7z,zlib格式的压缩打包
2020-06-24Java常见内存溢出异常分析与解决

精彩推荐

JAVA教程

Spring中多配置文件及引用其他bean的方式

本文给大家介绍spring中多配置文件及引用其他bean的方式，涉及到spring配置文件的相关知识，感兴趣的朋友一起学习吧 ...

souvc2192020-04-14
JAVA教程

Java 线程池详解及实例代码

这篇文章主要介绍了Java 线程池的相关资料,并符实例代码，帮助大家学习参考，需要的朋友可以参考下 ...

f2yy2042020-06-16
JAVA教程

java dom4j解析xml文件代码实例分享

这篇文章主要介绍了java dom4j解析xml文件的方法，分享给大家参考 ...

java技术网2152019-10-23
JAVA教程

java中final关键字使用示例详解

Java中的final关键字非常重要，它可以应用于类、方法以及变量。这篇文章中带你看看什么是final关键字？将变量，方法和类声明为final代表了什么？使用fi...

java教程网3172019-10-30
JAVA教程

Java语法基础之循环结构语句详解

这篇文章主要为大家详细介绍了Java语法基础之循环结构语句，感兴趣的小伙伴们可以参考一下...

生命壹号3302020-06-14
JAVA教程

spring实例化javabean的三种方式分享

这篇文章介绍了spring实例化javabean的三种方式，有需要的朋友可以参考一下 ...

java技术网5062019-10-16
JAVA教程

JDBC 使用说明(流程、架构、编程)

这篇文章主要介绍了JDBC 使用说明,需要的朋友可以参考下 ...

mdxy-dxy3602020-01-03
JAVA教程

Servlet和Filter之间的区别与联系

这篇文章主要介绍了Servlet和Filter之间的区别与联系的相关资料,需要的朋友可以参考下 ...

桑梓子1672020-04-24