Python — парсинг таблиц в PDF

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Задача: Есть таблица в PDF. Нужно сохранить эту таблицу в эксель XLS или CSV.

Решение: Используем библиотеку camelot.

Ссылка на библиотеку: https://github.com/camelot-dev/camelot

Устанавливаем библиотеку python3 -m pip install camelot-py[cv]
Устанавливаем Ghostscript. Скачать установщик https://www.ghostscript.com/download/gsdnld.html

import camelot

def main():
    tables = camelot.read_pdf('jones.pdf')
    print(tables[0].df)
    tables[0].to_csv('jones.csv')
    tables[0].to_excel('jones.xlsx')

if __name__ == '__main__':
    main()

Таблица экспортирована в CSV и XLS.
Ссылка на документацию https://camelot-py.readthedocs.io/en/master/user/quickstart.html#read-the-pdf

Поделиться
Отправить
Вотсапнуть