PDF문서에 표 데이터를 수집하는 방법.

728x90

PDF의 시트로 된 데이터를 데이터프레임화 시키고 싶은데, 파이썬으로 직접 불러오는 방법이 있습니다. 그러나 정형화된 파일양식을 가지고 있을 때 자동화가 가능할 것인데...물론 코딩으로 자동으로 맞춰줄 수는 있지만 코딩 작업량이 많을 듯하여 최선의 방법으로 작업해야 합니다. 이런 부분에 대해서는 사람이 정신노동이 필요하지요. 아직까지는 단순노동이 빠름...

PDF로 작성된 표를 온전하게 가져오려면 다음과 같은 방법을 시도할 수 있습니다:

온라인 PDF 변환 도구 사용: PDF를 Excel로 변환해주는 온라인 도구를 사용할 수 있습니다. 예를 들어, SmallPDF, Adobe Acrobat, 또는 Zamzar와 같은 온라인 서비스를 활용할 수 있습니다. 이러한 도구는 PDF 파일을 업로드하고 Excel 형식으로 변환한 다음 다운로드할 수 있는 기능을 제공합니다.
PDF를 Excel로 직접 변환: Adobe Acrobat과 같은 PDF 편집 소프트웨어를 사용하여 PDF 파일을 직접 Excel로 변환할 수도 있습니다. Adobe Acrobat은 "Export PDF" 또는 "Save As" 옵션을 제공하며, 이를 통해 Excel 형식으로 저장할 수 있습니다. 다른 PDF 편집 도구들도 비슷한 기능을 제공할 수 있습니다.
텍스트 추출 후 Excel에 붙여넣기: PDF 파일에서 표의 내용을 추출한 다음 Excel에 붙여넣는 방법을 사용할 수도 있습니다. 이 방법은 표의 형식이 간단하고 텍스트 추출이 가능한 경우에 효과적입니다. Adobe Acrobat이나 다른 PDF 편집 도구를 사용하여 표의 텍스트를 선택하고 복사한 다음 Excel로 이동하여 붙여넣으면 됩니다. 이 경우, 표의 형식이 완전히 보존되지 않을 수 있으므로 데이터를 정리하고 조정해야 할 수도 있습니다.
OCR 소프트웨어 사용: OCR (Optical Character Recognition) 소프트웨어를 사용하여 PDF의 이미지로 구성된 표를 인식하고 텍스트로 변환한 다음 Excel에 가져올 수도 있습니다. Adobe Acrobat이나 Abbyy FineReader와 같은 OCR 소프트웨어를 사용할 수 있습니다. 이 방법은 표가 이미지로 포함되어 있거나 텍스트 추출이 제대로 되지 않는 경우에 유용합니다.

이러한 방법 중 하나를 선택하여 PDF로 작성된 표를 온전하게 가져올 수 있습니다. 표의 복잡성과 내용에 따라 결과가 다를 수 있으므로 몇 가지 방법을 시도해보고 가장 적합한 결과를 얻을 수 있는 방법을 선택하는 것이 좋습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'파이썬' 카테고리의 다른 글

파이썬으로 엑셀 행 높이 자동조절하는 코드 (0)	2023.07.28
파이썬에서 명령문 병렬로 처리하기 (0)	2023.06.18
ChatGPT로 이미지 생성하는 2가지 Two ways to generate images with ChatGPT (0)	2023.04.17
시놀로지nas를 활용해서 SHH 접속 문제해결 Using Synology NAS to resolve SSH connection issues. (0)	2023.03.11
파이썬을 사용하여 엑셀에 테두리 속성 추가하는 코드 (0)	2023.02.11

트라움트리

PDF문서에 표 데이터를 수집하는 방법.

'파이썬' 카테고리의 다른 글

티스토리툴바

PDF문서에 표 데이터를 수집하는 방법.

'파이썬' 카테고리의 다른 글

'파이썬' Related Articles

티스토리툴바