markitdown安装与使用

shining

2026-06-27

背景

AI盛行时代，直接把 PDF、Word 或 Excel 喂给大模型时，复杂的底层代码会大量浪费 Token，且格式错乱会导致 AI 漏看细节

大模型天生对 Markdown 结构的理解力和推理能力最强。MarkItDown 能将各种文件精准抽离并保留完美的排版，省下高达 80% 的体积和 Token 消耗

安装

电脑需已安装python环境，且版本至少大于等于3.10，安装python可参考当拿到一个新服务器时所需准备工作

打开cmd并输入以下命令：

1	pip install 'markitdown[all]'

因为安装的是完全版（如果只需要基础核心功能，也可使用精简版命令 pip install markitdown），加上网络原因，安装时间大概在15分钟左右，耐心等待即可

打开cmd终端窗口，并输入以下命令：

1	npx mdskills install microsoft/markitdown

安装后，Claude Code 会自动检测并激活该技能。

命令行

安装完python包后，可直接在需要转换文件的文件夹里打开cmd，并输入

1	markitdown path-to-file.pdf > document.md

运行后该文件夹内会生成转换后的document.md文件

Claude code

在安装完Claude插件后，可以在交互时，直接对 Claude 说：“帮我把这里的文档转成 markdown”，或者在终端直接输入斜杠命令 /markitdown 强行触发转换。

RAG（本地知识库）搭建的“降维打击”利器

痛点：在做检索增强生成（RAG）时，普通的文本提取工具会把表格提取成一堆乱码，或者把标题当成普通段落切碎，导致 AI 检索出错误信息。
作用：它能把 Excel、PDF 表格转换为干净的 Markdown 矩阵表格，让 AI 具备分析财务报表、对比结构化数据的能力，使知识库的切片（Chunking）更符合语义逻辑。

多模态 AI 智能“看图说话”

作用：如果你给 MarkItDown 传入一个带有图表、插图的 Word 或 PDF，它可以挂载多模态大模型（如 GPT-4o 或 Claude）。
效果：它会自动调用大模型“看懂”这张图片，把图片的含义和图表中的数据转化成一段文字，优雅地插入到最终的 Markdown 结果中，实现真正的跨模态文档解析。

音视频自动转录入库

作用：它不仅处理文本。当你给它一个本地录音（.mp3/.wav）或者一个 YouTube 视频链接时，它能自动调用语音识别模块（如 Whisper），直接把音视频里的发言转成 Markdown 文本供 AI 总结。

作为 AI Agent（智能体）的万能外挂插件

作用：在新版本中，MarkItDown 已经支持了 MCP（Model Context Protocol 模型上下文协议）。
效果：它可以直接作为原生“技能”插槽，一键挂载到 Claude、AutoGen 等 AI 智能体应用中。以后你直接丢一个复杂的 ZIP 压缩包给 AI，AI 可以在后台调用 MarkItDown 自己解压、自己转换、自己分析。