跳转至

FAQ

DOC/DOCX/PPT 解析失败? - 请安装 LibreOffice 与 python-uno,确保 soffice 可执行;缺失时会回退到子进程方案,但稳定性与速度较差。

PDF 高保真解析? - 启用 use_mineru=True,并执行 scripts/download_models.py 下载/配置模型。

OCR/视觉模型调用失败或无响应? - 校验 DASHSCOPE_API_KEY/OPENAI_API_KEYbase_urlbase_url 未包含 /chat/completions 时会自动补全。

多模态 QA 无法找到图片? - 确保 Markdown 中图片路径可访问;评估流水线会将图片路径替换为绝对路径。

如何导出训练集? - 使用 save_label_data(..., "train") 生成 .jsonl;或自定义写出格式。

领域树必须启用吗? - 可选。可提供 custom_domain_tree 或关闭 use_tree_label,流程将回退为纯文本生成策略。