본문 바로가기

파이썬

PDF문서에 표 데이터를 수집하는 방법.

728x90
반응형

PDF의 시트로 된 데이터를 데이터프레임화 시키고 싶은데, 파이썬으로 직접 불러오는 방법이 있습니다. 그러나  정형화된 파일양식을 가지고 있을 때 자동화가 가능할 것인데...물론 코딩으로 자동으로 맞춰줄 수는 있지만 코딩 작업량이 많을 듯하여 최선의 방법으로 작업해야 합니다. 이런 부분에 대해서는 사람이 정신노동이 필요하지요. 아직까지는 단순노동이 빠름...

PDF로 작성된 표를 온전하게 가져오려면 다음과 같은 방법을 시도할 수 있습니다:

  1. 온라인 PDF 변환 도구 사용: PDF를 Excel로 변환해주는 온라인 도구를 사용할 수 있습니다. 예를 들어, SmallPDF, Adobe Acrobat, 또는 Zamzar와 같은 온라인 서비스를 활용할 수 있습니다. 이러한 도구는 PDF 파일을 업로드하고 Excel 형식으로 변환한 다음 다운로드할 수 있는 기능을 제공합니다.
  2. PDF를 Excel로 직접 변환: Adobe Acrobat과 같은 PDF 편집 소프트웨어를 사용하여 PDF 파일을 직접 Excel로 변환할 수도 있습니다. Adobe Acrobat은 "Export PDF" 또는 "Save As" 옵션을 제공하며, 이를 통해 Excel 형식으로 저장할 수 있습니다. 다른 PDF 편집 도구들도 비슷한 기능을 제공할 수 있습니다.
  3. 텍스트 추출 후 Excel에 붙여넣기: PDF 파일에서 표의 내용을 추출한 다음 Excel에 붙여넣는 방법을 사용할 수도 있습니다. 이 방법은 표의 형식이 간단하고 텍스트 추출이 가능한 경우에 효과적입니다. Adobe Acrobat이나 다른 PDF 편집 도구를 사용하여 표의 텍스트를 선택하고 복사한 다음 Excel로 이동하여 붙여넣으면 됩니다. 이 경우, 표의 형식이 완전히 보존되지 않을 수 있으므로 데이터를 정리하고 조정해야 할 수도 있습니다.
  4. OCR 소프트웨어 사용: OCR (Optical Character Recognition) 소프트웨어를 사용하여 PDF의 이미지로 구성된 표를 인식하고 텍스트로 변환한 다음 Excel에 가져올 수도 있습니다. Adobe Acrobat이나 Abbyy FineReader와 같은 OCR 소프트웨어를 사용할 수 있습니다. 이 방법은 표가 이미지로 포함되어 있거나 텍스트 추출이 제대로 되지 않는 경우에 유용합니다.

이러한 방법 중 하나를 선택하여 PDF로 작성된 표를 온전하게 가져올 수 있습니다. 표의 복잡성과 내용에 따라 결과가 다를 수 있으므로 몇 가지 방법을 시도해보고 가장 적합한 결과를 얻을 수 있는 방법을 선택하는 것이 좋습니다.

728x90
반응형