03课：MinerU 在线 API 实战教程

用户6998

4月8日修改

本教程带你从零认识 MinerU Open API，了解在产品的生态工具，并通过两个实战项目上手：飞书知识库、批量发票提取器。​

一、MinerU 在线 API 速览

MinerU 是一款开源文档提取工具，同时提供在线 API 服务。目前，我们将其命名为「MinerU Open API」。通过提供线上服务，帮助开发者和用户免部署、开箱即用。「MinerU Open API」现阶段分为2种类型，可满足不同场景：

	精准解析 API	Agent 轻量解析 API
需要 Token	是	否（按 IP 限流）
文件大小	≤ 200 MB	≤ 10 MB
页数限制	≤ 600 页	≤ 20 页
模型选择	pipeline / vlm / MinerU-HTML	固定轻量模型
批量处理	支持（≤ 200 文件）	不支持
输出格式	Markdown + JSON + docx/html/latex	仅 Markdown
适用场景	生产环境、大文件、批量任务	AI Agent、快速预览、小文件

*如何获取 Token：访问 mineru.net → 注册 → 进入「API管理 → Token」→ 复制。MinerU官网提供了每日免费 2000 页高优先级额度。完整 API 参数请查阅官方文档，本教程只在实战中用到时才展开。

二、核心参数详解及注意事项

参数名	取值	API接口默认值	影响
language	• ch,en,korean,japan等	ch(Chiness+English)	影响ocr识别精度，建议小语种的扫描件都显式设置下对应的语言
is_ocr	true\|false 是否强制开启ocr	false	不强制开启模型会自动识别是否需要进行ocr识别，通常情况下设为false即可。如果对解析效果不满意，可以开启试试效果
model_version (精度解析api)	• pipeline: 无幻觉，可解析pdf、word、ppt、图片 • vlm：多模态高精度，推荐，可解析pdf、word、ppt、图片 • MinerU-HTML：html，提取正文，支持url及文件上传	pipeline	解析精度及文件类型
extra_formats (精度解析api)	• docx：pdf转docx场景 • latex：学术场景 • html	空	转换后的文件会加到zip包返回

1.
URL解析注意事项​
◦
提交的文件 URL 需为公网可访问地址，确保系统能够正常下载文件。​
◦
批量提交大量 URL 任务时，需特别关注文件源站是否存在访问频率限制。例如，arXiv 等网站对 PDF 文件访问可能设置了频控。建议根据源站规则合理控制请求并发量，避免因触发反爬或限流机制导致任务失败。​
◦
 URL 任务提交接口仅支持传入文件链接，不支持直接上传文件​

2.
本地文件解析注意事项​
◦
在申请文件链接时，建议提供包含文件后缀在内的完整文件名，以提高文档校验的成功率。 ​
◦
文件上传完成后，可直接使用第一步申请文件链接时返回的 batch_id（精准解析）或 task_id（轻量解析）轮询任务结果，无需再通过文件 URL 重复提交任务。​

三、解析结果详解

解析状态说明

状态	说明
waiting-file	系统尚未检测到文件上传，只对本地文件解析接口有效。注：文件上传成功后，系统检测到会有毫秒级的延迟
uploading	文件下载中，对于url提交的文件，后端服务需要先下载文件再给模型推理。对于精准解析中的Word、PPT文件，转换为pdf也在该阶段执行
pending	排队中，当在线任务过多时，任务可能会停留在pending状态一段时间
running	解析中，对于精准解析API，会返回解析进度信息，例如： "extract_progress": { "extracted_pages": 1, "total_pages": 2, "start_time": "2025-01-20 11:43:20" }
converting	格式转换中，当设置了extra_formats参数时，会存在该状态
done	解析成功，下载相应的结果文件即可

03课：MinerU 在线 API 实战教程​

03课：MinerU 在线 API 实战教程