实现简陋的新闻爬取
引言
在构建博客的时候,我早就预想了,这个博客也能帮我整理每天的新闻资讯,平时都是问AI今天发生了什么事,我想做到博客上应该也没什么问题吧。于是在我完善博客大部分功能之后,开始做这个的时候出现问题了。
问题
我正好在DeepSeek还有12块钱的额度,使用flash模型绰绰有余,每天一篇新闻也用不到多少Token,预想是好的,但是实现犯了难,AI原生是不具备联网搜索的,至少DeepSeek是这样,就算我能调取,也是它训练模型的数据,并不是实时的当天新闻。
既然不能联网,我该怎么让它去联网去爬取新闻资讯呢?跟AI询问了一下,显然没有实际的好办法,我现在觉得服务器的配置非常宝贵,我不能再预装更冗杂的数据和环境去硬撑它,因为我在构建的时候将服务器的硬件吃满了,崩溃了几次,这事儿让我很烦,性能要兼顾,还需要AI去爬取新闻资讯,用Python?那我就得另起服务,还得装上,我的服务器因为使用NEXTJS全栈已经疲惫了。
解决
想了很久,我觉得不能一直在联网这个事情上面去烦恼,我想到一个办法,我们可以使用RSS去爬取一些现成的新闻资讯网站嘛!
计划通,我选择了IT之家,爱范儿,少数派等等知名的资讯网站,抛弃python的脚本,采用node的爬虫去爬取RSS,设定好RSS的源,当然AI也有动武之力,它负责将新闻资讯进行排版,然后在后面做好总结。
后台设定手动爬取和定时爬取,我尝试之后发现还是可以的,虽然没有之前在AI平台上那么舒服,但是好在是实现了。