0

微软开源项目:MarkitDown,可将文件转换成 MD 格式

微软在 GitHub 上开源了一个 Python 工具库 MarkItDownMarkItDown提供的作用是:可将任意 Office 文件转换成 Markdown 格式。

这款工具支持的具体格式包括:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Images (EXIF metadata, and OCR)
  • Audio (EXIF metadata, and speech transcription)
  • HTML (special handling of Wikipedia, etc.)
  • Various other text-based formats (csv, json, xml, etc.)
  • ZIP (Iterates over contents and converts each file)

MarkitDown 使用 MIT 协议,开发者甚至可以使用大模型来接入 MarkitDown 用来进行图片信息描述。

目前已经有开发者基于 MarkitDown 推出了网页版 Office 文件转 Markdown 服务。链接:msftmd.replit.app

0 评论
内联反馈
查看所有评论
订阅
X

您正在使用 IE 6 浏览器访问本博客。简单几步,您就可以升级:Internet Explorer

X
0
希望看到您的想法,请您发表评论x