上海人工智能实验室发布开源数据提取工具MinerU:简化AI数据处理
摘要
在2024年WAIC科学前沿主论坛上,上海人工智能实验室推出了全新的智能数据提取工具MinerU,旨在帮助AI研究者从海量文档中高效提取高质量数据。MinerU是一款开源的全能文档与网页数据提取工具,支持将多模态PDF文档转化为Markdown格式,并能从包含广告等干扰信息的网页中解析出正式内容。该工具由Magic-PDF和Magic-Doc两部分组成,分别负责PDF文档和网页、电子书数据的提取。
主要特点
- 支持多模态PDF文档的高质量提取和转换。
- 从包含广告的网页中快速解析并提取正式内容。
- 支持epub、mobi、docx等多种格式批量转换为Markdown。
技术优势
- 结合多个高级模型实现高质量文档数据提取,如LayoutLMv3、YOLOv8等。
- 自动删除非正文内容,保留文档结构和格式。
- 支持PDF文档的分类预处理、模型解析和质检等全流程处理。
应用场景
- AI研究与开发:为AI模型训练提供高质量的数据源。
- 文档管理:高效转换和管理多种文档格式。
- 网页内容提取:快速获取网页中的关键信息,去除干扰内容。
相关链接
– 魔搭社区体验链接
– 代码开源链接
– 开源模型链接
© 版权声明
文章版权归作者所有,未经允许请勿转载。