缘起
今天没事回想起了以前的.tk域名,于是到Dot Tk网站浏览了一番。发现这个网站特别精美,尤其是它的壁纸非常有海岛特色,而且能够随机切换。于是我就想把这个网站给保存下来。可是,如果用浏览器直接保存的话,页面就会有很多元素缺失,且网页也会变成静态的。于是我就询问了一个DeepSeek,得到了使用wget工具爬取html网页的方法。
代码
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.com
参数说明
--mirror: 镜像模式
--convert-links: 转换链接为本地可用
--adjust-extension: 调整文件扩展名
--page-requisites: 下载所有页面资源(CSS、JS、图片等)
--no-parent: 不爬取父目录
调整版
wget --mirror --convert-links --adjust-extension --page-requisites http://example.com
执行方法
使用ssh终端连接Linux服务器或使用宝塔面板的终端执行命令。
下载完成后会在执行文件夹下生成一个文件夹,即为爬取的网站。