Il solito strumento per convertire i documenti di Microsoft Office in HTML o altri formati era mswordview, che da allora è stato rinominato vwWare.
Se stai cercando uno strumento da riga di comando, in realtà ti consigliano di utilizzare AbiWord per eseguire la conversione:
AbiWord --to=txt
Se stai cercando una libreria, inizia dalla pagina di panoramica di wvWare. Mantengono anche un elenco di librerie e strumenti che leggono i documenti di MS Office.
Sceglierei la soluzione della riga di comando (e quindi utilizzerei il modulo del sottoprocesso Python per eseguire gli strumenti da Python).
Convertitori per msword (catdoc ), excel (xls2csv ) e ppt (catppt ) può essere trovato (in formato sorgente) qui:http://vitus.wagner.pp.ru/software/catdoc/.
Non posso commentare l'utilità di catppt ma catdoc e xls2csv funzionano alla grande!
Ma assicurati di cercare prima nei repository delle tue distribuzioni... Su Ubuntu, ad esempio, catdoc è solo un rapido apt-get away.
Puoi accedere a OpenOffice tramite l'API Python.
Prova a utilizzare questo come base:http://wiki.services.openoffice.org/wiki/Odt2txt.py