作者: littleboy 2023-10-18 17:40:43

RSS

在算法推荐主导信息获取、信息茧房愈演愈烈的当下,我们看似拥有海量资讯,却逐渐失去了主动选择信息的权利。而诞生于互联网早期的 RSS(Really Simple Syndication,简易信息聚合),凭借其去中心化、无算法干预、高效聚合的特性,成为越来越多人跳出茧房、高效获取精准信息的选择。这款曾被认为 “过时” 的技术,在信息过载的时代重新焕发生机,不仅是专业人士的知识管理工具,更成为普通用户对抗信息冗余的有效方式。

使用

查找订阅源

网站自带RSS

RSSHub Radar拓展,可以获得网站可用的RSS源

image-20260308153201077

使用订阅源

FreshRSS阅读器

自制订阅源

有时我们会发现

爬虫

网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。于是,很多网站开始反网络爬虫,想方设法保护自己的内容。

Selenium

服务器

服务器后台处理

RSS阅读器 Fluent Reader:https://github.com/yang991178/fluent-reader

RSS阅读器手机版 :https://github.com/yang991178/fluent-reader-lite

RSShub国内镜像:https://rsshub.netlify.app/

CPU

rssweball

加载网页

这一步很关键,能后加载网页内容的才能生成RSS

否则可能是网页需登录或反爬虫限制

定义规则

找到重复项,把网页元素写到一行上

似乎不能分行,会失败

定义输出格式

Selenium

模拟真人操作电脑浏览器进行网页访问,这种情况可以在你首次登录后,下次开启浏览器访问网站时,可以直接进入网页内容(而不用验证登录身份)

1
2
3
//使用备份的用户数据目录
string userDataDir = @"C:\Users\<user>\AppData\Local\Microsoft\Edge\User Data";
options.AddArgument($"user-data-dir={userDataDir}");