博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
抓取某一个网站整站的记录
阅读量:7234 次
发布时间:2019-06-29

本文共 896 字,大约阅读时间需要 2 分钟。

      经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题:

软件下载地址:

工具截图:

测试抓取的网站为简单心理:

抓取后的效果图

 

一般我会选择复制100级基本上也就把网站的东西全部copy下来了,但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符,或者gbk编码的文件就会出现乱码如下图:

 

当然手动在浏览器选择UTF-8也可以,但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫:TelePort乱码修复工具(siteRepair-v2.0),经过测试可以解决乱码的问题,这款工具也会清除一些无效的链接和html符号等。

软件下载地址:

软件截图:

 

绝大数网站再经过这两个步骤应该都已经OK了,但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码,类似下面的URL地址:

除了加锁,还有什么方法解决资源竞争的问题?/解决方案.html

这样网站的结构抓取下来就会出现两种乱码:1)文件夹名乱码 2)文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错,我估计是不能识别乱码的文件夹或者文件吧。

 

后来在网上找了一个PHP的程序,进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

'; echo '结果: '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'
'; } } } closedir($dh); } }}?>

 

在代码的同级目录下,新建 convert文件夹,把乱码的文件放入这个目录,然后执行convert.php即可。

转载地址:http://acmfm.baihongyu.com/

你可能感兴趣的文章
无所遁形
查看>>
动态规划(2)——01背包
查看>>
使用递归遍历并转换树形数据(以 TypeScript 为例)
查看>>
css制作动画
查看>>
大型分布式网站的思考(一):大型网站发展历程
查看>>
一些ES6新姿势
查看>>
Serverless 风格微服务的持续交付(上):架构案例
查看>>
SpringCloud(第 047 篇)注解式Async配置异步任务
查看>>
微服务指南走北(五):什么样的服务才可以说是微服务?
查看>>
在virtualbox 下安装ubuntu 并配置共享文件夹
查看>>
cp、mv、install
查看>>
Redis学习笔记——dict
查看>>
前端实例练习 - 动效伸缩搜索框
查看>>
Ruby 2.x 源代码学习:ubuntu 环境 下载,编译,调试 ruby 源代码
查看>>
使用 Kanban精益创新
查看>>
Javaslang 3.0之路
查看>>
大搜车孙信宇:一个好的团队应该去中心化
查看>>
《A Practical Guide to Continuous Delivery》作者访谈录
查看>>
一文看懂大数据领域的六年巨变
查看>>
Rust 和Erlang的对比
查看>>