学一个新领域,我现在的第一步是把它抓下来
最近一直在看 Simon Willison 的文章。
他是 Django 框架的联合创始人,现在是 AI 工具链领域最活跃的独立开发者之一。他的博客 simonwillison.net 上有超过 10 年的技术文章,内容覆盖 Python、SQLite、LLM 应用、数据工程……信息密度极高。
看着看着,我就想——能不能把他所有博客全部抓下来,做成一个私人知识库?以后想了解他对某个技术的看法,直接问 AI 就行,不用一篇一篇翻。
不光如此,这个思路可以推广到任何领域:找到某个方向最好的内容源,批量抓下来,做成你自己的领域知识库。
遇到的问题
我第一反应是直接告诉 OpenClaw 我的需求,让它帮我解决。
但是实测下来,单篇文章没问题,但批量抓取搞不定。它自己安装了一些开源工具做这事,但返回了很多无关的链接,所以它不具备直接做到”给我这个站点所有文章”的能力。
而我需要的是:
- 先拿到 Simon 博客上所有文章的 URL 列表
- 再逐篇把内容抓下来,转成干净的 Markdown
- 最好能直接在 AI 对话里完成,不用写代码
后来发现了 XCrawl 这个工具,完美解决了这三个问题。
XCrawl 是什么
简单说,XCrawl 是一个网页抓取 API 服务,提供四个核心能力:
- Search — 搜索引擎查询,返回结构化结果(标题、URL、摘要、排名)
- Map — 扫描一个站点,列出它所有的 URL
- Scrape — 抓取指定 URL 的页面内容,输出干净的 Markdown
- Crawl — 全站递归爬取,适合大规模批量抓取
而且它提供了 OpenClaw 的 Skill,意味着你可以直接在 OpenClaw 里用自然语言调用这些能力,不用写任何代码。
配置很简单:
- 去 https://www.xcrawl.com/?keyword=ut0qflxk 注册拿到 Key
- 新账号有 1000 积分免费额度
- 把它的 Skill 文档链接 https://docs.xcrawl.com/zh/doc/developer-guides/openclaw/ 直接告诉 OpenClaw
- OpenClaw 会自动安装相关的 Skill
抓取 Simon Willison 的全部博客
第一步:用 Map 拿到所有文章 URL
Map 会扫描站点的 sitemap 和链接结构,返回所有符合条件的 URL。我按年份过滤,只要近三年的文章。
结果:233 篇文章的 URL
Simon Willison 真是高产,每年平均 100 篇文章。2026 年才三月他已经写了 24 篇文章了。
第二步:用 Scrape 逐篇抓取正文
Scrape 是精确制导——一个 URL 对应一篇干净的 Markdown,不会抓到导航栏、评论区这些噪声。
结果:
- 233 篇文章,耗时不到 10 分钟跑完
- 每篇都是干净的 Markdown
- 标题层级、代码块、链接全部保留
第三步:存到本地,用 AI 分析
因为输出就是 Markdown,我直接让 OpenClaw 把这些文件保存到本地文件夹。然后直接用 Claude Code 打开会话,让 AI 分析这些内容。
现在我可以这样问:
“Simon 对 SQLite 的看法是什么?” “他写过关于 LLM 应用的最佳实践吗?”
结果: 我现在有了一个”Simon Willison 的大脑副本”,想学什么直接问。
从零构建一个陌生领域的知识库
上面的案例是”我已经知道要学谁”,但更多时候,你面对一个完全陌生的领域,连该看谁的东西都不知道。
这时候加一步 Search 就行:先搜关键词找到这个领域最好的内容源,再用 Map 摸清站点结构,最后用 Scrape 把符合你意图的文档全部抓下来。
案例:系统学 WebAssembly
第一步:Search 找方向
搜”WebAssembly learning”,返回结构化的搜索结果——标题、URL、摘要、排名。
从 40 条结果里筛出 5 个高质量站点:
- 核心文档站
- 深度博客
- awesome 列表
第二步:Map 摸清每个站的结构
对每个筛出来的站点跑一次 Map。有些站只有 20 篇文章,有些有 500 页但大部分是 API reference。
Map 帮你在抓之前就做好判断,只选真正有价值的部分。
第三步:Scrape 定向抓取
和上面的步骤一样,定向抓取符合你意图的文档。
结果:
- 拿到 80 篇高质量文档
- 全部是干净 Markdown
- 直接存到本地做知识库
- 从”我对 WebAssembly 一无所知”到”我有一个 80 篇核心文档的专属知识库”,不到两小时
五点心得
1. Map 先行,永远是对的
不管你多确定要抓什么,先跑一次 Map 看看站点结构。很多站的 URL 规律和你想的不一样,Map 能帮你避免抓一堆垃圾页面。
2. Search 的语言设置很重要
同一个关键词,英文和中文的搜索结果差异巨大。技术领域建议优先搜英文,拿到的源质量普遍更高。
3. Markdown 输出是真的省事
因为输出直接就是 Markdown,我可以让 OpenClaw 直接保存到本地笔记库里,不需要任何格式转换,拿到就能用。
4. 抓取稳定性比想象中好
XCrawl 底层会自动轮换 IP,批量抓几百篇文章速度也很快,隐私和安全性都很好。一些开源的方案会遇到禁止抓取的情况,在这里没遇到过。
5. 关于合规
XCrawl 内置 robots.txt 检测,只采集公开内容。但选目标站时还是建议手动确认一下抓取政策。
学习流程的变化
以前:
- 自己找资料
- 自己读
- 自己整理笔记
现在:
- Search 找源
- Map 探路
- Scrape 抓取
- 存到本地
- AI 对话学习
最大的变化
学习的瓶颈从”找不到好内容”变成了”怎么问出好问题”。
这才是 AI 时代学习该有的样子。
本质
把互联网上散落的高质量内容,变成你的私人知识库,然后用 AI 帮你消化。
评论