使用 RAG 文本抓取器高效提取文本
RAG文本抓取器是一个Chrome扩展,简化了从多个URL提取干净文章文本的过程,将输出保存为.txt文件。这个工具对于需要高质量文本数据集以用于检索增强生成(RAG)系统的开发者、研究人员和AI爱好者特别有益。它通过去除广告、标题和其他无关内容,自动化了清理网页文章的繁琐过程,确保仅保留核心信息。
主要功能包括抓取单个和批量页面的能力,利用Mozilla的Readability.js进行智能内容提取。一个可选的AI驱动清理功能允许用户连接他们的API密钥,以使用高级语言模型增强文本处理。每个抓取的文章格式整齐,并包含基本元数据,使其成为各种用户的多功能工具,从数据科学家到创意编码者。