본문으로 바로가기

PDF 텍스트추출 OCR 입니다

category 컴퓨터정보 2017. 9. 13. 06:30

PDF텍스트추출 OCR 입니다

텍스트로 되어 있는 PDF 파일이나 이미지 파일등에 문자를 추출하는 기술이 바로 OCR(Optical Character Recongnition) 입니다.  바로 공항 문자 인식 기술입니다. 요새 명함을 사진으로 찍어 문자 부분만 추출하는 앱도 이 기술을 사용한겁니다. 보안상 읽기 전용 프로그램인 pdf 파일이 있을 때 텍스트를 추출하고 한다면 아크로밧리더 프로버전은 가능하지만 비싸서 사용하기 힙니다. ^^ 작은 문서인 경우 무료로 이용할 수 있습니다. 

아래 사이트로 접속합니다. 

ReTIA홈페이지

홈페이지에 접속하면 상단 메뉴 중 서비스 - ROSE 문서 인식을 선택합니다. 

PDF텍스트추출 OCR 입니다



ROSE 문서인식 서비스에 대한 설명이 나와 있습니다. 입력 이미지 포맷은 BMP, JPEG, PING, TIFF, PDF 등이 있으며 출력 파일 포맷은 워드나 엑셀로 할 수 있습니다.

ROSE 문서인식 서비스에 대한 설명




스크롤을 조금 내리면 무료 OCR 서비스 이용하기 버튼이 있습니다. OCR 서비스를 이용하기 위해 클릭해주세요

무료 서비스 이용하기



서비스를 이용하려면 로그인을 해야 합니다. 소셜 로그인 서비스가 있으니 간편하게 이용하실 수 있습니다. 


소셜 로그인



로그인이 되면 이미지 선택할 수 있는 화면으로 전환됩니다. 이미지 선택을 해서 PDF 파일을 업로드 합니다. 

해당 파일의 언어를 선택하시고 개인정보 수집 및 이용 동의에 동의함을 선택 후 다음을 클릭해주세요

PDF 파일 업로드



변경된 파일을 받을 이미일 주소를 입력 하시고 변환 결과를 받을 문서 형식을 선택합니다.

문서 형식 선택



입력하신 메일로 가보시면 PDF 파일에서 텍스트가 추출된 워드 파일이 첨부로 도착해있을 겁니다.

메일이 보이지 않는다면 스팸메일함을 확인해보세요

ROSE 에서받은 메일




첨부파일을 열어보니 변환이 잘되어 있습니다.

워드로 변환된 PDF

이상 PDF 텍스트 추출하는 방법을 알아보았습니다. 

반응형