# wzbsocialsciencecenter/pdftabextract

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/wzbsocialsciencecenter-pdftabextract).**

2,255 stars · 369 forks · Python · Apache-2.0

## Links

- GitHub: https://github.com/WZBSocialScienceCenter/pdftabextract
- Homepage: https://datascience.blog.wzb.eu/2017/02/16/data-mining-ocr-pdfs-using-pdftabextract-to-liberate-tabular-data-from-scanned-documents/
- awesome-repositories: https://awesome-repositories.com/repository/wzbsocialsciencecenter-pdftabextract.md

## Description

A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.

## Tags

### Part of an Awesome List

- [Table Processing](https://awesome-repositories.com/f/awesome-lists/data/table-processing.md) — Tool for parsing table information after OCR.