누리IDT, 두루마리 대형 문서를 한 번에 자동 인식하는 OCR 개발 출시

누리IDT, 두루마리 대형 문서를 한 번에 자동 인식하는 OCR 개발 출시

입력 2025-05-15 08:00
수정 2025-05-15 08:00
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0
지능형 데이터 전문 기업 (주)누리아이디티(대표 배성진)는 5월 15일 인공지능(AI) 모델을 기반으로 크고 복잡한 대형 고문서의 텍스트를 자동 인식하는 ‘대형 문서 OCR’과 ‘영역 인식 OCR’ 2종의 프로그램을 신규 출시했다고 발표했다.

‘대형 문서 OCR’은 두루마리 문서처럼 길이가 길거나 크기가 큰 대형 고문서의 수록 문자를 한 번에 자동 인식하여 텍스트를 출력해 주는 프로그램이다. 이러한 대형 문서들은 수작업으로 일일이 입력하거나 부분을 나눠서 촬영한 이미지들을 OCR 하고 합치는 방식으로 디지털 텍스트를 확보해 왔는데, 이러한 번거로운 과정을 단번에 해소할 수 있게 되었다.

이미지 확대
두루마리 형태의 대형 고문서의 800여 글자를 ‘대형 문서 OCR’ 프로그램으로 한 번에 자동인식한 화면
두루마리 형태의 대형 고문서의 800여 글자를 ‘대형 문서 OCR’ 프로그램으로 한 번에 자동인식한 화면


‘영역 인식 OCR’은 다단 구조 등 구성이 복잡하고 서체도 다양하게 쓰인 문서를 이미지 입력 화면에서 영역을 분할해 문자를 인식하는 프로그램이다. 그러한 문서에 대해 사용자는 필용한 부분만 또는 문서 전체의 텍스트를 효과적으로 추출할 수 있다.

누리IDT가 기존에 서비스 중인 ‘고문헌 AI 시스템’의 사용자들로부터 절대적인 요청을 받고 1년 동안 개발해 추가 서비스하게 된 이 두 종의 새로운 OCR 프로그램으로 그간 크기와 복잡성 때문에 유보되고 있던 대형 고문서 원문의 디지털 텍스트 전환이 급속히 앞당겨지게 되었다.

이와 함께 누리IDT는 고문헌 한문을 현대 한국어로 옮겨 주는 ‘고문헌 자동 번역’ AI 모델도 개발해 공개했다. 이 인공지능(AI) 모델은 전통 고문헌의 옛 한문을 텍스트로 입력하면 원문 1,000자까지 1초 이내에 한글로 자동 번역해 준다. 이 자동 번역 프로그램을 이용하면 대부분 원문 형태에 머물러 있는 수많은 고문헌 콘텐츠를 한문을 모르는 일반인도 손쉽게 이해하고 활용할 수가 있다.

그 동안 누리IDT는 고문헌 원문을 자동 인식한 후 자동 번역에 이르는 자동 처리 시스템 구축을 목표로 관련 솔루션을 개발해 왔다. 이번에 ‘대형 문서 OCR’, ‘영역 인식 OCR’과 ‘고문헌 자동 번역’ 모델을 신규 서비스하면서 누리IDT의 배성진 대표는 “2년 전 ‘고문헌 한자 OCR’을 처음 출시한 이후 마침내 고문헌 토털 솔루션의 최종 단계에 도달하게 되었다. 이번에 새롭게 공개하는 신종 서비스가 고문헌 콘텐츠의 활용에 적극 사용되기를 바란다. 앞으로도 당사는 출시 서비스의 성능 향상에 노력하는 한편으로, 휴대폰으로 고문헌 원문을 사진 찍고 그 자리에서 번역 결과까지 확인할 수 있는 원스톱 서비스 개발을 목표로 하겠다.”고 포부를 밝혔다.

대형 문서를 포함한 고문헌 OCR에서 자동 표점, 자동 번역을 망라한 누리 IDT의 고문헌 토털 서비스는 ‘누리IDT 고문헌 AI 시스템’ 웹페이지에서 간단한 회원 가입을 거쳐 누구나 사용해 볼 수 있다.
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
'민생회복 소비쿠폰'에 대한 여러분의 생각은?
정부가 추가경정예산(추경)을 통해 총 13조원 규모의 ‘민생회복 소비쿠폰’을 지급하기로 하자 이를 둘러싸고 소셜미디어(SNS) 등에서 갑론을박이 벌어지고 있다. 경기에 활기가 돌 것을 기대하는 의견이 있는 반면 SNS와 온라인 커뮤니티에서는 ‘소비쿠폰 거부운동’을 주장하는 이미지가 확산되기도 했다. ‘민생회복 소비쿠폰’ 여러분은 어떻게 생각하나요?
경기 활성화에 도움이 된다고 생각한다.
포퓰리즘 정책이라고 생각한다.
광고삭제
광고삭제
위로