Loading...

上海人工智能实验室发布开源数据提取工具MinerU:简化AI数据处理

小野资讯6个月前发布 xxball
2,990 0 0

上海人工智能实验室发布开源数据提取工具MinerU:简化AI数据处理

摘要

在2024年WAIC科学前沿主论坛上,上海人工智能实验室推出了全新的智能数据提取工具MinerU,旨在帮助AI研究者从海量文档中高效提取高质量数据。MinerU是一款开源的全能文档与网页数据提取工具,支持将多模态PDF文档转化为Markdown格式,并能从包含广告等干扰信息的网页中解析出正式内容。该工具由Magic-PDF和Magic-Doc两部分组成,分别负责PDF文档和网页、电子书数据的提取。
上海人工智能实验室发布开源数据提取工具MinerU:简化AI数据处理

主要特点

  1. 支持多模态PDF文档的高质量提取和转换。
  2. 从包含广告的网页中快速解析并提取正式内容。
  3. 支持epub、mobi、docx等多种格式批量转换为Markdown。

技术优势

  1. 结合多个高级模型实现高质量文档数据提取,如LayoutLMv3、YOLOv8等。
  2. 自动删除非正文内容,保留文档结构和格式。
  3. 支持PDF文档的分类预处理、模型解析和质检等全流程处理。

应用场景

  1. AI研究与开发:为AI模型训练提供高质量的数据源。
  2. 文档管理:高效转换和管理多种文档格式。
  3. 网页内容提取:快速获取网页中的关键信息,去除干扰内容。

相关链接

魔搭社区体验链接

代码开源链接

开源模型链接

© 版权声明

相关文章