pdf2txt

要想把PPT 的内容提取成TXT, 目前还不能一步到位,
需要把PPT 转成PDF 然后 PDF 再转成TXT

PPT 转 PDF

打开PPT => 文件另存为PDF

PDF 转 TXT

安装 pdfminer

pdfminer

1
2
3
pip3 install pdfminer
which pdf2txt.py     # 得到的路径要记下来, 后面会用到
> /e/Anaconda3/Scripts/pdf2txt.py

开始转换

1
python3 E:\Anaconda3\Scripts\pdf2txt.py -o xxx.txt xxx.pdf

这条命令会把xxx.pdf 转换在xxx.txt