หัวข้อ (ภาษาไทย) : 

ระบบการแปลงไฟล์ภาพเอกสารให้เป็นข้อความอิเล็กทรอนิกส์

หัวข้อ (ภาษาอังกฤษ) : 

OPTICAL CHARACTER RECOGNITION (OCR) SYSTEM

อาจารย์ที่ปรึกษา : 
รายชื่อนักศึกษา : 
59011068 ภีรดา ชีพสมทรง
59011427 สุชาครีย์ ชาติพจน์


บทคัดย่อ

เนื่องจากพบปัญหาในบริษัทรับทำบัญชี ที่เมื่อมีบริษัทอื่นมาจ้างในจัดการด้านบัญชี ก็จะให้มาแต่เอกสารในรูปแบบเอกสารสิ่งพิมพ์ที่มีแบบฟอร์มที่เหมือน ๆ กันจำนวนมาก แต่ปัญหาก็คือไม่มีไฟล์ต้นฉบับแนบมาด้วย ดังนั้นถ้าหากต้องการจัดการกับข้อมูล จึงจำเป็นที่จะต้องใช้ปริมาณคนและเวลาที่มาก อีกทั้งอาจจะมีปัญหาเอกสารสูญหาย ด้วยเหตุนี้ทางบริษัททำบัญชีต่างๆ จึงให้ความสนใจกับเทคโนโลยีที่จะสามารถมาประยุกต์ใช้ในการจัดการกับเอกสาร ซึ่งก็คือ โปรแกรมที่สามารถแปลงไฟล์ภาพเอกสารให้เป็นข้อความอิเล็กทรอนิกส์แทนการพิมพ์เอกสารขึ้นมาใหม่ หรือที่รู้จักกันในชื่อ “โอซีอาร์” โดยมีเปิดให้ใช้บริการทั้งแบบไม่คิดค่าใช้จ่าย และแบบคิดค่าใช้จ่าย แต่โอซีอาร์ที่เปิดให้ใช้งานส่วนใหญ่นั้น จะให้ผลลัพธ์เป็นข้อความอิเล็กทรอนิกส์ หรือไม่ก็ข้อความอิเล็กทรอนิกส์กับตำแหน่งของข้อความอิเล็กทรอนิกส์นั้น หรือก็คือไม่มีระบบฐานข้อมูลและแม่แบบ จึงทำให้ต้องทำการเก็บข้อมูลหลังจากการใช้บริการโอซีอาร์อีก ซึ่งการจัดเก็บข้อมูลของข้อความอิเล็กทรอนิกส์ที่ผ่านการแปลงโดยโอซีอาร์ให้เป็นหมวดหมู่ หรือหัวข้อเดียวกันให้อยู่ด้วยกันก็จะต้องให้ผู้ใช้เป็นผู้ตัดสินใจและจัดเก็บตามดุลพินิจของผู้ใช้ที่ต้องผ่านจากการอ่านข้อความอิเล็กทรอนิกส์ที่ผ่านการแปลงโดยโอซีอาร์อีกครั้ง

โดยปริญญานิพนธ์นี้ได้จะนำการเรียนรู้เชิงลึกมาประยุกต์ใช้ในการทำระบบการแปลงไฟล์ภาพเอกสารแบบฟอร์มในรูปแบบตัวพิมพ์สำหรับภาษาไทยหรือภาษาอังกฤษให้เป็นข้อความอิเล็กทรอนิกส์ โดยจะมีเว็บแอปพลิเคชันที่เป็นเครื่องมือที่ช่วยในการจัดการแม่แบบก่อนแปลงผลผ่านโอซีอาร์ และจัดการในการเก็บข้อมูลหลังแปลงผลจากโอซีอาร์ เพื่อให้สามารถนำข้อมูลไปใช้ต่อได้สะดวกยิ่งขึ้น

 



Abstact

          A pre-printed form contains a number of fields to be filled out. Each field has certain meaning.  It holds data. Most of time, documents given to accounting firms are paper-based pre-printed forms that are filled with printed text. Before these documents can be processed further, data must be extracted from them. Such data must be added to the database according to their labels in the form.

           Optical Character Recognition(OCR) converts image documents to digital text. Objective of our project is to do the OCR for printed text on pre-printed form and insert the extracted text into the database.

          We have developed a web application that helps us manage document templates and data collection easily by OCR in order to make the information ready to be processed further.








 
 

Department of Computer Engineering , Faculty of Engineering , King Mongkut's Institute of Technology Ladkrabang
Ladkrabang Bangkok 10520 Thailand. Tel. +66 2 329 8341 - 2 Fax.+66 2 329 8343
Copyright © iCE. All Rights Reserved. Developed by iCE Team.