PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환

728x90

PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환하는 데 사용할 수 있는 파이썬의 예제 코드

import tabula
import pandas as pd

def extract_tables_from_pdf(file_path):
    # Accepts file path as an argument
    tables = tabula.read_pdf(file_path, pages='all', multiple_tables=True)
    # Extract tables from PDF document using tabula library
    dataframes = []
    for table in tables:
        df = pd.DataFrame(table)
        dataframes.append(df)
    return dataframes

if __name__ == '__main__':
    dataframes = extract_tables_from_pdf('real_estate_document.pdf')
    for i, df in enumerate(dataframes):
        print(f'Table {i+1}:')
        print(df)

이 코드는 PDF 문서의 파일 경로를 인수로 사용하고, 표 라이브러리를 사용하여 문서에서 테이블을 추출합니다. 추출된 테이블은 판다 데이터 프레임으로 변환되어 목록에 저장된다. 그런 다음 데이터 프레임이 콘솔에 인쇄됩니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'파이썬' 카테고리의 다른 글

데이터프레임에서 특정 값을 빈 값(NaN, Null 등)으로 변경하는 방법 (0)	2023.02.09
데이터프레임 특정값을 Nan으로 변경하기 (0)	2023.02.09
파이썬을 이용해서 부동산 관련 문서를 정리하는 코드의 예제 (0)	2023.02.09
파이썬에서 엑셀로 저장할 때 보기좋게 정리하는 코드 (0)	2023.02.09
파이썬으로 부동산고객관리 시스템 코드 (0)	2023.02.09

트라움트리

PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환

'파이썬' 카테고리의 다른 글

티스토리툴바

PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환

'파이썬' 카테고리의 다른 글

'파이썬' Related Articles

티스토리툴바