跳转至

DataMax Docs

入门

Hi-Dolphin/datamax

入门¶

目标读者¶

开发者、数据工程师，构建“解析 → 清洗 → 标注/评估 → 存储/分发”的数据流水线。

安装与环境¶

安装核心库：
```
pip install pydatamax
```
可选依赖（按需启用）：
LibreOffice + python-uno（DOC/DOCX/PPT 稳定高质量转换）
Magic‑PDF (MinerU) 模型（PDF → Markdown 高保真）
OpenAI/DashScope 兼容接口（文本/多模态生成与评估）
PaddleOCR（PDF 布局恢复为 Word）
常用环境变量：
OPENAI_API_KEY, OPENAI_BASE_URL（如 https://api.openai.com/v1）
DASHSCOPE_API_KEY, DASHSCOPE_BASE_URL（兼容 /chat/completions）

快速开始¶

解析单文件¶

from datamax import DataMax

res = DataMax(file_path="a.pdf", to_markdown=True, use_mineru=True).get_data()
print(res["content"])

清洗文本（串联管道）¶

from datamax import DataMax

cleaned = DataMax(file_path="a.pdf").clean_data(["abnormal", "filter", "private"])
print(cleaned["content"])  # 清洗后的文本

预标注并保存训练集¶

from datamax import DataMax

dm = DataMax(file_path="a.docx", to_markdown=True)
qa = dm.get_pre_label(
    api_key="YOUR_API_KEY",
    base_url="https://dashscope.aliyuncs.com/api/v1",  # 未带 /chat/completions 会自动补全
    model_name="qwen-max",
    question_number=10,
    max_qps=5.0,
    use_tree_label=True,
)
dm.save_label_data(qa, "train")  # 导出 train.jsonl

架构概览¶

解析层：多格式解析统一入口 DataMax → 解析器路由 → 统一输出与生命周期
清洗层：异常清洗、过滤、隐私脱敏，可按需组合
生成层：文本/多模态 QA、领域树（标签树）生成与匹配
爬虫层：web/arxiv 引擎 + 存储适配（本地/云）
评估层：文本质量、多模态一致性，支持端到端筛选
CLI 层：命令行工具覆盖解析/清洗/生成/爬取/评估/批处理