본문 바로가기

파이썬

PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환

728x90
반응형

 PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환하는 데 사용할 수 있는 파이썬의 예제 코드

import tabula
import pandas as pd

def extract_tables_from_pdf(file_path):
    # Accepts file path as an argument
    tables = tabula.read_pdf(file_path, pages='all', multiple_tables=True)
    # Extract tables from PDF document using tabula library
    dataframes = []
    for table in tables:
        df = pd.DataFrame(table)
        dataframes.append(df)
    return dataframes

if __name__ == '__main__':
    dataframes = extract_tables_from_pdf('real_estate_document.pdf')
    for i, df in enumerate(dataframes):
        print(f'Table {i+1}:')
        print(df)

이 코드는 PDF 문서의 파일 경로를 인수로 사용하고, 표 라이브러리를 사용하여 문서에서 테이블을 추출합니다. 추출된 테이블은 판다 데이터 프레임으로 변환되어 목록에 저장된다. 그런 다음 데이터 프레임이 콘솔에 인쇄됩니다.

728x90
반응형