用户6998用户6998 | 精准解析 API | Agent 轻量解析 API |
需要 Token | 是 | 否(按 IP 限流) |
文件大小 | ≤ 200 MB | ≤ 10 MB |
页数限制 | ≤ 600 页 | ≤ 20 页 |
模型选择 | pipeline / vlm / MinerU-HTML | 固定轻量模型 |
批量处理 | 支持(≤ 200 文件) | 不支持 |
输出格式 | Markdown + JSON + docx/html/latex | 仅 Markdown |
适用场景 | 生产环境、大文件、批量任务 | AI Agent、快速预览、小文件 |
参数名 | 取值 | API接口默认值 | 影响 |
language | • ch,en,korean,japan等 | ch(Chiness+English) | 影响ocr识别精度,建议小语种的扫描件都显式设置下对应的语言 |
is_ocr | true|false 是否强制开启ocr | false | 不强制开启模型会自动识别是否需要进行ocr识别,通常情况下设为false即可。如果对解析效果不满意,可以开启试试效果 |
model_version (精度解析api) | • pipeline: 无幻觉,可解析pdf、word、ppt、图片 • vlm:多模态高精度,推荐,可解析pdf、word、ppt、图片 • MinerU-HTML:html,提取正文,支持url及文件上传 | pipeline | 解析精度及文件类型 |
extra_formats (精度解析api) | • docx:pdf转docx场景 • latex:学术场景 • html | 空 | 转换后的文件会加到zip包返回 |
状态 | 说明 |
waiting-file | 系统尚未检测到文件上传,只对本地文件解析接口有效。注:文件上传成功后,系统检测到会有毫秒级的延迟 |
uploading | 文件下载中,对于url提交的文件,后端服务需要先下载文件再给模型推理。对于精准解析中的Word、PPT文件,转换为pdf也在该阶段执行 |
pending | 排队中,当在线任务过多时,任务可能会停留在pending状态一段时间 |
running | 解析中,对于精准解析API,会返回解析进度信息,例如: "extract_progress": { "extracted_pages": 1, "total_pages": 2, "start_time": "2025-01-20 11:43:20" } |
converting | 格式转换中,当设置了extra_formats参数时,会存在该状态 |
done | 解析成功,下载相应的结果文件即可 |