跳转至

入门

目标读者

  • 开发者、数据工程师,构建“解析 → 清洗 → 标注/评估 → 存储/分发”的数据流水线。

安装与环境

  • 安装核心库:
    pip install pydatamax
    
  • 可选依赖(按需启用):
  • LibreOffice + python-uno(DOC/DOCX/PPT 稳定高质量转换)
  • Magic‑PDF (MinerU) 模型(PDF → Markdown 高保真)
  • OpenAI/DashScope 兼容接口(文本/多模态生成与评估)
  • PaddleOCR(PDF 布局恢复为 Word)
  • 常用环境变量:
  • OPENAI_API_KEY, OPENAI_BASE_URL(如 https://api.openai.com/v1
  • DASHSCOPE_API_KEY, DASHSCOPE_BASE_URL(兼容 /chat/completions

快速开始

解析单文件

from datamax import DataMax

res = DataMax(file_path="a.pdf", to_markdown=True, use_mineru=True).get_data()
print(res["content"])

清洗文本(串联管道)

from datamax import DataMax

cleaned = DataMax(file_path="a.pdf").clean_data(["abnormal", "filter", "private"])
print(cleaned["content"])  # 清洗后的文本

预标注并保存训练集

from datamax import DataMax

dm = DataMax(file_path="a.docx", to_markdown=True)
qa = dm.get_pre_label(
    api_key="YOUR_API_KEY",
    base_url="https://dashscope.aliyuncs.com/api/v1",  # 未带 /chat/completions 会自动补全
    model_name="qwen-max",
    question_number=10,
    max_qps=5.0,
    use_tree_label=True,
)
dm.save_label_data(qa, "train")  # 导出 train.jsonl

架构概览

  • 解析层:多格式解析统一入口 DataMax → 解析器路由 → 统一输出与生命周期
  • 清洗层:异常清洗、过滤、隐私脱敏,可按需组合
  • 生成层:文本/多模态 QA、领域树(标签树)生成与匹配
  • 爬虫层:web/arxiv 引擎 + 存储适配(本地/云)
  • 评估层:文本质量、多模态一致性,支持端到端筛选
  • CLI 层:命令行工具覆盖解析/清洗/生成/爬取/评估/批处理