스캔한 PDF 파일에서 원본 이미지 추출하는 방법

스캔한 PDF 파일을 공부나 자료 목적으로 일부 영역을 잘라내거나 캡쳐하는 경우가 종종 있습니다. 허나 이 경우에는 확대 배율에 따라 이미지 화질이 달라진다는 문제점이 있죠. 즉, 100% 상태에서 복사한 이미지와 1600%로 확대한 상태에서 복사한 이미지의 품질이 서로 달라진다는 것입니다. 이번 글에서는 이러한 문제를 근본적으로 해결하기 위해 북스캔한 PDF파일을 원본 즉, 해상도를 고정한 이미지(TIFF)로 다시 추출하는 방법을 정리해보겠습니다.

스캔한 PDF 파일에서 원본 이미지 추출하는 방법 썸네일

개요 및 참고사항

서론에서 말씀 드렸던 북스캔한 PDF 파일에서 이미지를 다시 추출해야 하는 상황은 생각보다 자주 발생하게 됩니다. 특히 PDF 내용을 재배치하거나, 일부 페이지만 따로 정리하려는 경우, PDF 뷰어의 복사 기능이나 화면 캡처 방식은 화질이 일정하지 않아 한계가 있기 때문입니다.

이 글에서는 Ghostscript를 이용해 PowerShell에서 PDF를 고정 DPI 이미지로 변환하여 PDF에서 원본에 가까운 이미지를 추출하는 방법을 소개해드립니다. 이 방식은 모니터의 화면 확대 배율과 무관하게 항상 동일한 품질의 이미지를 추출할 수 있다는 장점이 있습니다.

📌 참고사항

작업을 시작하기 전에 아래 사항을 반드시 이해하고 진행하시는 것이 좋습니다.

1. 스캔 원본 DPI에 따라 추출 DPI를 설정해야 함.

북스캔 PDF에서 이미지를 추출할 때 가장 흔한 오해가 “추출 DPI를 높게 설정하면 화질이 좋게 추출된다”는 생각입니다. 그러나 이는 기술적으로 맞지 않습니다.

북스캐너로 300dpi로 스캔을 했다면 PDF 담긴 정보는 300dpi 입니다. 이 PDF를 600dpi나 1200dpi로 변환해서 추출하더라도 새로운 디테일이 생기지는 않습니다. 단지 픽셀 수만 늘어난, 일종의 업스케일링만 된다는 것이빈다.

  • 원본 300dpi → 300~400dpi 권장
  • 원본 600dpi → 600dpi 권장

원본 스캔 dpi 이상으로 올려서 작업하는 것은 용량과 작업 부담만 커지고 실질적인 화질 개선은 거의 없습니다.


2. OCR 작업이나 압축된 PDF는 화질 저하가 발생한 상태이므로 100% 완전한 스캔 원본 이미지 추출은 어려움.

다음과 같은 과정을 거친 PDF 파일은 이미 원본 스캔 이미지 대비 화질 저하가 발생한 상태일 수 있습니다.

  • OCR 처리된 PDF
  • 스캔 과정에서 JPEG 압축이 적용된 PDF
  • 파일 용량을 줄이기 위해 후처리 압축이 적용된 PDF

이 경우, PDF 내부에 이미 압축된 이미지가 들어 있기 때문에 100% 완전한 ‘스캔 원본 이미지’를 다시 추출하는 것은 어렵습니다.

다만, 아래에서 설명하는 방식은 현재 PDF가 가진 최대 품질을 그대로 보존한 상태로 추출하는 방법이므로 화질을 더이상 나쁘게 만드는 문제점은 발생하지 않습니다.

스캔한 PDF 파일에서 원본 이미지 추출하는 방법

두 프로그램 모두 무료이며, 개인 학습 및 개인 자료 정리 용도로 사용하는 데에는 문제가 없습니다. 설치 후에는 ImageMagick 폴더 안에서 PowerShell을 실행할 수 있도록 준비하시면 됩니다.

준비물

작업을 위해서는 아래 두 가지의 준비물이 필요합니다.

Ghostscript (Windows 64bit, AGPL Release)

Ghostscript는 PDF 파일을 해석하고, 이를 이미지로 변환할 수 있도록 도와주는 PDF 처리 엔진입니다. ImageMagick이 PDF를 읽을 때 내부적으로 이 프로그램을 사용합니다.

Ghost Script 다운로드
다운로드 시 선택 항목
  • Ghostscript XX.XX.X for Windows (64 bit)
  • Ghostscript AGPL Release 선택

※ Commercial License는 유료이므로 선택하실 필요가 없습니다.
※ 본인의 운영체제 bit 수에 맞게 선택해주시면 됩니다.

설치 시 주의사항

설치 후 gswin64c.exeC:\Program Files\gs\ 경로 아래에 생성되면 정상적으로 완료된 것입니다.

ImageMagick (Q16-x64)

ImageMagick은 Ghostscript를 이용해 PDF 파일을 원하는 DPI의 이미지로 변환하는 도구입니다. Portable 버전을 사용하면 설치 없이 바로 사용할 수 있어 관리가 편리합니다.

ImageMagick 다운로드

※Q16-x64 버전을 권장하는 이유

  • Q16(16bit 정수 정밀도)는 북스캔 PDF와 같은 문서나 교재의 이미지 처리에 충분한 품질을 제공합니다.
    HDRI(부동소수점) 빌드는 고급 색보정이나 HDR 이미지 처리용으로, 일반적인 스캔 문서 작업에서는 체감 화질 차이가 거의 없습니다!
  • HDRI 빌드는 메모리 사용량이 크고, 고해상도(600dpi 이상) 작업 시 오히려 시스템 부담이 커질 수 있습니다.
  • x64 버전은 대용량 이미지 처리 시 안정성이 더 좋습니다.
  • Portable 버전은 별도의 설치 과정이 필요 없고, 압축 해제 후 바로 사용할 수 있어 관리가 간편합니다.

PowerShell에서 이미지 추출하기

이제 준비물이 다 준비되었다면 바로 북스캔 PDF에서 원본 이미지를 추출해보도록 합시다. 이 방법은 일반적인 Windows 환경을 기준으로 설명드린다는 점 참고해주세요!

1) 작업 폴더와 작업할 파일 준비

우선, 가장 오류가 적은 방법은 ImageMagick 실행 파일과 추출작업을 진행할 PDF 파일을 같은 폴더에 두고 작업하는 것입니다. 포터블 버전으로 다운로드 받으셨을테니 아래의 폴더에 작업할 파일을 이동시켜주세요.

2) PowerShell을 해당 폴더에서 실행

폴더의 빈 공간에서 Shift + 우클릭 → 여기에 PowerShell 열기 를 클릭합니다.

3) PDF 파일이 제대로 있는지 확인

아래의 명령어를 입력합니다.

dir *.pdf

위 사진처럼, 여기서 변환하려는 PDF 파일명이 표시되면 정상입니다!


4) Ghostscript 경로를 설정 (중요)

Ghostscript가 설치되어 있어도 ImageMagick이 자동으로 찾지 못하는 경우가 많습니다. 아래와 같이 Ghostscript 실행 파일 경로를 직접 지정해 주는 것이 가장 확실합니다.

$env:MAGICK_GHOSTSCRIPT_PATH="C:\Program Files\gs\gs10.xx.x\bin\gswin64c.exe"

※설치한 고스트스크립트 파일 버전 숫자에 맞게 작성합니다.


5) 먼저 1페이지만 테스트 변환 (권장)

전체 변환 전에 한 페이지만 테스트하면 오류 여부를 빠르게 확인할 수 있습니다.

.\magick.exe -density 600 "example_scan.pdf[0]" `
-background white -alpha off -depth 8 -compress LZW test_0001.tiff
  • 여기서 -density 600에서 600은 dpi 값이므로, 본인의 원본 스캔 dpi의 값을 입력하셔야 합니다!
  • [0]은 첫 페이지를 의미합니다.
  • test_0001.tiff 파일이 생성되면 정상입니다.

6) 전체 PDF 페이지에서 원본 이미지를 추출

.\magick.exe -density 600 "example_scan.pdf" `
-background white -alpha off -depth 8 -compress LZW page_%04d.tiff

페이지별 TIFF 파일로 생성됩니다.

자주 묻는 질문

PDF 뷰어에서 복사하거나 화면 캡처로 원본 이미지를 추출할 순 없나요?

PDF 뷰어에서 복사 기능이나 화면 캡처 방식은 현재 화면의 확대 배율(줌 비율) 에 따라 이미지 품질이 달라집니다. 같은 페이지라도 100% 상태에서 복사한 이미지와 800%, 1600%로 확대한 상태에서 복사한 이미지의 결과가 서로 달라질 수 있습니다.

-density 값을 높이면 화질이 더 좋아지나요?

아니요. -density 값은 PDF를 어떤 해상도(DPI)로 이미지로 변환할 것인지를 정하는 옵션일 뿐, 원본에 없는 디테일을 새로 만들어 주지는 않습니다. 예를 들어 원본이 300dpi로 스캔된 PDF라면 -density 600이나 -density 1200으로 변환해도 실질적인 화질 향상은 없고, 단순한 업스케일링에 불과합니다. 따라서 원본 스캔 DPI를 기준으로 설정하는 것이 가장 정확한 방법입니다.

그래도 1200dpi로 추출하는 것이 더 안전하지 않나요?

일부 상황에서는 의미가 있을 수 있지만, 일반적인 북스캔 교재에서는 과한 설정인 경우가 많습니다. 파일 용량이 급격히 증가하고 편집 및 재배치 작업 시 시스템 부담이 커질 수 있습니다. 대부분의 경우 600dpi + LZW 압축만으로도 편집, 확대, 태블릿에 넣었을 때 로딩이 과해지지 않을 정도를 다 충족시키는 충분한 품질을 확보할 수 있습니다.

OCR을 한 PDF에서도 이 방법을 사용할 수 있나요?

사용할 수는 있습니다. 다만 OCR 처리나 압축이 이미 적용된 PDF는 내부 이미지가 원본 스캔 상태가 아니기 때문에 100% 완전한 원본 이미지를 다시 추출하는 것은 어렵습니다. 그럼에도 이 방법은 현재 PDF가 가진 최대 품질을 그대로 유지한 채로 이미지를 추출하는 데에는 효과적입니다.

PNG나 JPG로 추출해도 되지 않나요?

가능은 하지만, 반복 편집이나 재구성을 고려한다면
TIFF 형식이 더 안정적입니다. 특히 LZW 압축 TIFF는 화질 손실이 없고, 추후 다시 PDF로 재조합하거나 OCR을 진행하기에도 적합하기 때문입니다.

마무리

이번 포스팅에서는 Ghostscript와 ImageMagick을 이용하여, 북스캔 후 PDF 파일 형태로만 남아 있는 자료에서 원본 이미지를 다시 추출하는 방법에 대해 알아보았습니다.

북스캔한 PDF 파일을 다시 편집하거나, PDF 내의 이미지나, 사진 등의 일부 내용을 원본 품질로 추출하고 싶은 경우에는 오늘 소개해드린 방법이 굉장히 유용하게 쓰이실 것입니다.

저도 노가다로 알아냈는데, 이 글이 비슷한 작업을 진행하시는 분들께 조금이나마 도움이 되었기를 바랍니다. 질문 있으시면 댓글 달아주세요~

📌이런 글은 어떠신가요?

북스캔 어플 추천 TOP 10 썸네일
셀프 북스캔 방법 비용 정리 썸네일
가정용 양면 북스캐너 추천 TOP 5 썸네일
북스캔에 최적화된 화질저하를 최소화한 OCR PDF 만드는 방법 썸네일
엡손 ES-580W 사용후기 및 팁 (+사용방법, 매뉴얼, 드라이버) 썸네일
현대오피스 HC-600 a4 재단기 사용후기

댓글 남기기