入门
目标读者
- 开发者、数据工程师,构建“解析 → 清洗 → 标注/评估 → 存储/分发”的数据流水线。
安装与环境
- 安装核心库:
- 可选依赖(按需启用):
- LibreOffice + python-uno(DOC/DOCX/PPT 稳定高质量转换)
- Magic‑PDF (MinerU) 模型(PDF → Markdown 高保真)
- OpenAI/DashScope 兼容接口(文本/多模态生成与评估)
- PaddleOCR(PDF 布局恢复为 Word)
- 常用环境变量:
- OPENAI_API_KEY, OPENAI_BASE_URL(如
https://api.openai.com/v1)
- DASHSCOPE_API_KEY, DASHSCOPE_BASE_URL(兼容
/chat/completions)
快速开始
解析单文件
from datamax import DataMax
res = DataMax(file_path="a.pdf", to_markdown=True, use_mineru=True).get_data()
print(res["content"])
清洗文本(串联管道)
from datamax import DataMax
cleaned = DataMax(file_path="a.pdf").clean_data(["abnormal", "filter", "private"])
print(cleaned["content"]) # 清洗后的文本
预标注并保存训练集
from datamax import DataMax
dm = DataMax(file_path="a.docx", to_markdown=True)
qa = dm.get_pre_label(
api_key="YOUR_API_KEY",
base_url="https://dashscope.aliyuncs.com/api/v1", # 未带 /chat/completions 会自动补全
model_name="qwen-max",
question_number=10,
max_qps=5.0,
use_tree_label=True,
)
dm.save_label_data(qa, "train") # 导出 train.jsonl
架构概览
- 解析层:多格式解析统一入口 DataMax → 解析器路由 → 统一输出与生命周期
- 清洗层:异常清洗、过滤、隐私脱敏,可按需组合
- 生成层:文本/多模态 QA、领域树(标签树)生成与匹配
- 爬虫层:web/arxiv 引擎 + 存储适配(本地/云)
- 评估层:文本质量、多模态一致性,支持端到端筛选
- CLI 层:命令行工具覆盖解析/清洗/生成/爬取/评估/批处理