在网络上经常看到一些感到很有价值的内容,但是因为很多原因,有些内容会被删除,所以,仅仅放进收藏夹是不够的,因此,自己也是一直处于探索各种网络内容保存的工具,比较它们之间的不同,乐此不疲。这篇文章,把这些工具进行整理,方便自己查阅,也与大家共享。

Omnivore

Omnivore是Github上面的一个稍后阅读开源项目,同时也提供了完全免费的网页内容云端存储服务,界面清爽简洁,在Github项目的介绍里提到了关于自建服务器部署的内容,但目前来说还不成熟,搭建难度较大,提到可能后续会提供更加简单的搭建方式。

几乎所有的网页都可以进行解析,但是在抓取一些像国内微信公众号内容的时候,有一些情况下会忽略掉空行,可能和博主的格式编辑方式有关。另外,只有文字会保存到云端,网页里的图片是直接用原链接URL保存的,也就是说,如果原来的图片内容失效,那保存的文章里图片也是无法显示的。

Github项目:https://github.com/omnivore-app/omnivore
官网:https://omnivore.app/home

Pocket

Pocket可以说是稍后阅读界的元老级APP,把它摆在第一位的原因是用了很大一圈工具之后,发现Pocket除了可以在云端保存文字之外,连图片都是缓存了的,就算是免费版也是这样,这一点真的是很慷慨。虽然在Pocket的付费版介绍里说了内容会永久保存在云端,但免费版竟然也可以保存,至于是不是永久没有承诺,但也至少比不提供好。

大部分的国内外网站都能以解析之后的内容存储,包括微信公众号的显示都很正常,有时候遇到内容比较复杂的内容,会直接用链接的方式保存,而不进行解析。

官网:https://getpocket.com

ArchiveBox

ArchiveBox也是Github上的一个开源项目,通过搭建在自己的服务器来实现,这个项目可以像WaybackMachine那样从真正意义上把网页的内容缓存到自己的服务器上,而且包括了多种格式,除了像常规的解析后的格式,还包括PDF、截图、纯HTML等等,如果在WaybackMachine有对应的缓存,也会展示读取链接。

但保存网页的速度相当缓慢的感觉,录入一个网页链接之后,一般几分钟后才可以看到逐渐有一些内容拉取出来,但是,这也不是很大的问题。

Github项目:https://github.com/ArchiveBox/ArchiveBox
官网:https://archivebox.io

Cubox

Cubox在近些年知名度逐渐升高,界面方面确实做得比较精致,但收费也不便宜,一般免费添加200条记录之后就会需要付费才可以添加更多,免费的同样也只可以保存文字信息,图片是通过链接方式读取的,但收费版可以提供网页的云端快照,包括图片都可以存储,如果不想自己动手搭建一些开源项目,可能Cubox属于一个比较合适的选择。

国内版官网:https://cubox.pro
国际版官网:https://cubox.cc

Huntly

Huntly也是Github的一个开源项目,需要自己搭建到服务器,这个项目比较有特色,稍后阅读只是它的功能之一,它同时提供了Chrome浏览器的插件,可以设置把浏览过的网页静默地进行记录,也可以对需要保存的网页进行解析保存,但同样目前暂时不支持保存图片,只保存链接,同时,它还提供RSS订阅功能,以及一个很有特色的Twitter浏览记录自动保存功能。

Github项目:https://github.com/lcomplete/huntly

Wallabag

Wallabag也是Github上人气很高的一个开源稍后阅读项目,有很多的用户自行在自己的服务器上搭建,同时,也提供了付费的版本。

Github项目:https://github.com/wallabag/wallabag
官网:https://wallabag.org

Evernote/印象笔记

Evernote和印象笔记严格说不是同一个APP,印象笔记是Evernote在国内的版本,也有一些很适合国内用户使用的功能,包括绑定微信公众号之后直接发送剪藏内容到APP,而且排版和微信公众号的文章内容基本一致,而国际版Evernote虽然也有剪藏功能,但是对于国内用户来说并没有那么好用。

Evernote/印象笔记更主要的问题是,限制条件比较多,在多个设备登录,以及存储内容超过限制之后,都会触发收费,否则无法使用,虽然这样,因为毕竟知名度很高,还是有很多忠实的用户群。

当然,国内还有很多笔记软件,比如有道云笔记、石墨笔记,界面和功能也很接地气,但终究不是专门的稍后阅读软件,而是主打笔记功能,如果只想保存网页内容,还是略显繁琐,就不详细介绍了。

印象笔记官网:https://www.yinxiang.com
Evernote官网:https://evernote.com

Safari Webarchive

对于苹果的用户来说,可以用Safari的Webarchive方式存储网页,简单说这就是直接从文件菜单保存网页的功能,之前一直没有怎么关注,但用了之后发现相当惊艳,用一个独立的.webarchive格式的文件就把整个网页几乎原封不动地抓取下来,包括图片内容,就算在断网的条件下打开,都能几乎完全还原网页的所有格式和内容,就像镜像复制一样,但只能在safari浏览器上面打开,对于苹果用户来说,这是最简单直接的网页保存方式。

截图

截图也是一种最简便通用的保存网页内容的方式,但需要配合长截图工具才可以很好地保存一个网页,长截图工具也是很常见,有很多选择,在这里就不详细介绍,有一些安卓手机原生支持长截图,在最新版iOS 17上面已经原生提供了网页长截图功能。

截图的方式可以毫无疑问地把网页的图片资源抓取下来,也有一个弊端,文字也属于整个截图的一部分,但也可以通过OCR图片文字识别工具抓取下来。

结语

上面的一些内容大概就是最近一段时间探索的一些工具,各有优缺点,遵循“鸡蛋不放在同一个篮子里”的原则,好几个工具同时在用,也同时仍在探索更多更好用的网页内容保存工具,随时可能在这里更新。