用wget把html网页完整地爬下来

2025-05-31

8 次瀏覽

617字数

缘起

今天没事回想起了以前的.tk域名，于是到Dot Tk网站浏览了一番。发现这个网站特别精美，尤其是它的壁纸非常有海岛特色，而且能够随机切换。于是我就想把这个网站给保存下来。可是，如果用浏览器直接保存的话，页面就会有很多元素缺失，且网页也会变成静态的。于是我就询问了一个DeepSeek，得到了使用wget工具爬取html网页的方法。

代码

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.com

参数说明

--mirror: 镜像模式
--convert-links: 转换链接为本地可用
--adjust-extension: 调整文件扩展名
--page-requisites: 下载所有页面资源（CSS、JS、图片等）
--no-parent: 不爬取父目录

调整版

wget --mirror --convert-links --adjust-extension --page-requisites http://example.com

执行方法

使用ssh终端连接Linux服务器或使用宝塔面板的终端执行命令。
下载完成后会在执行文件夹下生成一个文件夹，即为爬取的网站。

用wget把html网页完整地爬下来

缘起

代码

参数说明

调整版

执行方法

發表評論取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

欢迎来到司白画博客

如何自律学习

谷歌必应快速收录新域名

115网盘+Alist打造自己的私人媒体库

颓废录

對低素質網民的抨擊

无语的语文期末考试—对语文期末考试的感觉与总结

一次班级大扫除

远离手机，保持心静

而我还困在暹罗广场的那个梦里

用wget把html网页完整地爬下来

缘起

代码

参数说明

调整版

执行方法

發表評論 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

用wget把html网页完整地爬下来

發表評論取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款