docx是一种开放格式。它本质上是一个zip文件,可以用解压软件把它解压到一个目录中,包括几个目录,内置图片,所有的东西都在相应的目录中。文本的内容存储在xml中,因此用python解析它相对容易。
doc是早期生成的文件,已关闭。一般来说,类似的软件如openoffice或wps会对格式进行解码和支持,但不能保证完全支持。这比docx困难得多。
对于该库的开发人员,我认为他没有心思或需要做这样的事情。
如果需要读取doc文件,可以使用win32com模块将doc转换为docx,然后使用python_uux读取内容。