Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型
摘要
Jina AI 推出了两款专门将原始 HTML 转换为干净、结构化 Markdown 文件的小型语言模型,Reader-LM-0.5B 和 Reader-LM-1.5B。这些模型专为 HTML 到 Markdown 的转换任务优化,提供了高效率和准确性,同时在资源限环境中也能高效运行。
![Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型](https://toolxy.cn/wp-content/uploads/2024/09/1726208669-reader-lm-banner.jpg)
主要特点
- ✨ HTML 到 Markdown 转换:自动处理噪声内容,生成清晰的 Markdown。
- 📊 小型但高效:专为 HTML 转 Markdown 任务优化,表现超过许多更大的语言模型。
- 🌐 多语言支持:自动识别并处理不同语言的 HTML 内容。
- 📑 长上下文处理:支持长达 256K tokens 的上下文数据。
- 🔧 端到端数据清理与提取:无需复杂的规则或正则表达式,自动清理 HTML 数据并提取关键内容。
性能对比
- 🚀 性能优越:Reader-LM 在 HTML 转 Markdown 任务中优于一些更大的模型。
- 📊 指标对比:ROUGE-L 分数高,WER 和 TER 低,表明生成内容的准确率高。
- 💎 效率与资源占用:在较低配置的硬件上也能高效运行。
训练情况
- 🔧 数据准备:使用高质量的 HTML 到 Markdown 配对数据进行训练。
- 🛠️ 两阶段训练流程:先处理短序列,后处理长序列,优化长上下文处理能力。
- 🧠 模型大小和架构:提供 0.5B 和 1.5B 两种参数规模的模型。
- 🔄 处理重复生成与退化问题:引入对比索和对比损失,减少复生成。
- 🏃 训练框架和优化:使用基于 Transformers Trainer 的训练框架,优化长输入的训练效率。
相关链接
– 原文链接
© 版权声明
文章版权归作者所有,未经允许请勿转载。