파이썬
PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환
파라만
2023. 2. 9. 14:29
728x90
반응형
PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환하는 데 사용할 수 있는 파이썬의 예제 코드
import tabula
import pandas as pd
def extract_tables_from_pdf(file_path):
# Accepts file path as an argument
tables = tabula.read_pdf(file_path, pages='all', multiple_tables=True)
# Extract tables from PDF document using tabula library
dataframes = []
for table in tables:
df = pd.DataFrame(table)
dataframes.append(df)
return dataframes
if __name__ == '__main__':
dataframes = extract_tables_from_pdf('real_estate_document.pdf')
for i, df in enumerate(dataframes):
print(f'Table {i+1}:')
print(df)
이 코드는 PDF 문서의 파일 경로를 인수로 사용하고, 표 라이브러리를 사용하여 문서에서 테이블을 추출합니다. 추출된 테이블은 판다 데이터 프레임으로 변환되어 목록에 저장된다. 그런 다음 데이터 프레임이 콘솔에 인쇄됩니다.
728x90
반응형