Loading...

Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型

小野资讯2周前更新 xxball
3,310 0 0

Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型

摘要

Jina AI 推出了两款专门将原始 HTML 转换为干净、结构化 Markdown 文件的小型语言模型,Reader-LM-0.5B 和 Reader-LM-1.5B。这些模型专为 HTML 到 Markdown 的转换任务优化,提供了高效率和准确性,同时在资源限环境中也能高效运行。

Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型

主要特点

  1. ✨ HTML 到 Markdown 转换:自动处理噪声内容,生成清晰的 Markdown。
  2. 📊 小型但高效:专为 HTML 转 Markdown 任务优化,表现超过许多更大的语言模型。
  3. 🌐 多语言支持:自动识别并处理不同语言的 HTML 内容。
  4. 📑 长上下文处理:支持长达 256K tokens 的上下文数据。
  5. 🔧 端到端数据清理与提取:无需复杂的规则或正则表达式,自动清理 HTML 数据并提取关键内容。

性能对比

  1. 🚀 性能优越:Reader-LM 在 HTML 转 Markdown 任务中优于一些更大的模型。
  2. 📊 指标对比:ROUGE-L 分数高,WER 和 TER 低,表明生成内容的准确率高。
  3. 💎 效率与资源占用:在较低配置的硬件上也能高效运行。

训练情况

  1. 🔧 数据准备:使用高质量的 HTML 到 Markdown 配对数据进行训练。
  2. 🛠️ 两阶段训练流程:先处理短序列,后处理长序列,优化长上下文处理能力。
  3. 🧠 模型大小和架构:提供 0.5B 和 1.5B 两种参数规模的模型。
  4. 🔄 处理重复生成与退化问题:引入对比索和对比损失,减少复生成。
  5. 🏃 训练框架和优化:使用基于 Transformers Trainer 的训练框架,优化长输入的训练效率。

相关链接

Reader-LM-0.5B 模型下载

Reader-LM-1.5B 模型下载

Google Colab 快速体验

原文链接

© 版权声明

相关文章