Python — парсинг таблиц в PDF
Задача: Есть таблица в PDF. Нужно сохранить эту таблицу в эксель XLS или CSV.
Решение: Используем библиотеку camelot.
Ссылка на библиотеку: https://github.com/camelot-dev/camelot
Устанавливаем библиотеку python3 -m pip install camelot-py[cv]
import camelot
def main():
tables = camelot.read_pdf('jones.pdf')
print(tables[0].df)
tables[0].to_csv('jones.csv')
tables[0].to_excel('jones.xlsx')
if __name__ == '__main__':
main()
Таблица экспортирована в CSV и XLS.
Ссылка на документацию https://camelot-py.readthedocs.io/en/master/user/quickstart.html#read-the-pdf