728x90
반응형
PDF 문서에서 테이블을 추출하여 판다 데이터 프레임으로 변환하는 데 사용할 수 있는 파이썬의 예제 코드
import tabula
import pandas as pd
def extract_tables_from_pdf(file_path):
# Accepts file path as an argument
tables = tabula.read_pdf(file_path, pages='all', multiple_tables=True)
# Extract tables from PDF document using tabula library
dataframes = []
for table in tables:
df = pd.DataFrame(table)
dataframes.append(df)
return dataframes
if __name__ == '__main__':
dataframes = extract_tables_from_pdf('real_estate_document.pdf')
for i, df in enumerate(dataframes):
print(f'Table {i+1}:')
print(df)
이 코드는 PDF 문서의 파일 경로를 인수로 사용하고, 표 라이브러리를 사용하여 문서에서 테이블을 추출합니다. 추출된 테이블은 판다 데이터 프레임으로 변환되어 목록에 저장된다. 그런 다음 데이터 프레임이 콘솔에 인쇄됩니다.
728x90
반응형
'파이썬' 카테고리의 다른 글
데이터프레임에서 특정 값을 빈 값(NaN, Null 등)으로 변경하는 방법 (0) | 2023.02.09 |
---|---|
데이터프레임 특정값을 Nan으로 변경하기 (0) | 2023.02.09 |
파이썬을 이용해서 부동산 관련 문서를 정리하는 코드의 예제 (0) | 2023.02.09 |
파이썬에서 엑셀로 저장할 때 보기좋게 정리하는 코드 (0) | 2023.02.09 |
파이썬으로 부동산고객관리 시스템 코드 (0) | 2023.02.09 |