fbpx

เจาะลึกเทคโนโลยี OCR ภาษาไทย AI Tool เร่งประสิทธิภาพธุรกิจได้เกินคาด

การเพิ่มความแม่นยำของเทคโนโลยีการรู้จำอักขระแบบออปติคัล (Optical Character Recognition, OCR) สำหรับเทคโนโลยี ocr ภาษาไทย ถือเป็นหนึ่งในเรื่องที่ท้าทายการพัฒนาเป็นอย่างมาก เพราะอย่างที่ทราบกันว่า เนื่องจากลักษณะพิเศษของอักขระและโครงสร้างของภาษาไทยนั้น มีทั้งรูปแบบการเขียนที่มีหัวและไม่มีหัว มีสระและวรรณยุกต์บน-ล่าง ยังไม่รวมถึงหน้าตาของบางตัวอักษรที่มีการเขียนใกล้เคียงกัน (ต่างกันแค่หัวหยักนิดเดียว) ทำให้การทำ ocr ภาษาไทย ให้มีความแม่นยำนั้น ทำได้ยากมาก

แต่อย่างไรก็ดี ภายในบทความนี้ เราจะมาสำรวจวิธีการเพิ่มความแม่นยำของเทคโนโลยี ocr ภาษาไทยเชิงเทคนิคโดยละเอียด ซึ่งเป็นสิ่งที่แอพแมนเดินหน้าพัฒนาความสามารถของระบบปัญญาประดิษฐสำหรับรู้จำตัวอักษร (AI) ด้วยการให้เครื่องจักรทำการเรียนรู้ (Machine Learning) มาอย่างต่อเนื่อง จนสามารถตอบสนองความต้องการแปลงเอกสารกระดาษให้เป็นข้อมูลดิจิทัลได้อย่างแม่นยำ*

*อัตราความแม่นยำของ AppMan OCR จะสูงถึง 90% ขึ้นไป เมื่อเป็นประเภทเอกสารที่กำหนด และไม่มีปัจจัยอื่นๆ แทรกซ้อน

1. การปรับปรุงการประมวลผลภาพก่อนการรู้จำ OCR ภาษาไทย

ขั้นตอนแรกของการยกระดับประสิทธิภาพของ ocr ภาษาไทยนั้น การปรับปรุงคุณภาพของรูปภาพให้มีความคมชัด ก่อนที่จะนำเข้าไปสู่กระบวนการวิเคราะห์อักขระด้วย AI ซึ่งหากสามารถทำขั้นตอนนี้ได้อย่างมีคุณภาพ สามารถช่วยเพิ่มความแม่นยำได้มาก โดยการประมวลผลภาพก่อนการทำ ocr (Pre-processing) จะประกอบด้วยขั้นตอนดังนี้ :

  • การปรับแต่งคุณภาพแสงและคอนทราสต์ของรูปภาพ : เพื่อให้ภาพมีความชัดเจน จะมีการใช้เทคนิคการปรับค่า histogram ภายในรูปเพื่อเพิ่มความชัดเจนของอักขระ หรือตัวอักษรบนรูปภาพ
  • การลบจุดรบกวน : ตัวระบบ ocr จะมีการเรียกใช้งานฟิลเตอร์ต่างๆ ในการปรับแต่งรูปภาพต้นฉบับ เพื่อสร้างความคมชัดก่อนนำมาแปลงเป็นข้อมูล เช่น การนำเอา Median filter หรือเอฟเฟกต์ Gaussian blur มาใช้ลดจุดรบกวนหรือ noise ที่ไม่ต้องการออกจากรูปแบบ
  • การทำให้ภาพเป็นขาวดำ (Binarization) : คือการแปลงทั้งภาพให้กลายเป็นสีขาวดำเท่านั้น ช่วยให้ระบบ ocr ภาษาไทย สามารถระบุขอบและลายเส้นของอักขระแต่ละตัวอักษรได้ง่ายขึ้น
  • การตรวจจับและแก้ไขการเอียงของอักขระ (Deskewing) : ตัวระบบ ocr จะมีการปรับให้อักขระที่ปรากฏบนรูปแบบที่อาจมีการจัดเก็บหรือถ่ายมาเอียง บิดเบี้ยว ฯลฯ ให้มีการตั้งตรงเพื่อให้สามารถทำ ocr ภาษาไทยได้ราบรื่นยิ่งขึ้น

2. การใช้โมเดล Deep Learning เพื่อให้ AI สามารถรู้จำอักขระภาษาไทย

การเรียนรู้เชิงลึก (Deep Learning) ถือเป็นวิธีหนึ่งของระบบปัญญาประดิษฐ์ (AI) ที่ช่วยสอนคอมพิวเตอร์ให้ประมวลผลข้อมูลในลักษณะที่อ้างอิงมาจากสมองมนุษย์ เพื่อให้ระบบสามารถจดจำรูปแบบที่ซับซ้อนในรูปภาพ ข้อความ และข้อมูลอื่นๆ เพื่อสร้างข้อมูลเชิงลึกและการคาดคะเนที่ถูกต้อง ซึ่งการใช้โมเดล Deep Learning ได้แสดงให้เห็นถึงประสิทธิภาพที่สูงในการรู้จำอักขระ โดยเฉพาะในภาษาที่มีลักษณะซับซ้อนอย่างภาษาไทย ซึ่งรูปแบบวิธีการที่มักจะเลือกใช้กันในการทำ ocr คือ:

  • Convolutional Neural Networks (CNNs): เป็นโมเดลที่เหมาะสำหรับการจำแนกคุณลักษณะของภาพต่างๆ โดยสามารถจดจำลักษณะพื้นฐานของอักขระภาษาต่างๆ โดยเฉพาะภาษาไทยได้
  • Recurrent Neural Networks (RNNs): เป็นโมเดลท่ใช้สำหรับรู้จำลำดับของตัวอักษรภายในคำหรือประโยคต่างๆ
  • Long Short-Term Memory Networks (LSTM): เป็นโมเดลที่อยู่ในรูปแบบประเภทหนึ่งของ RNN ซึ่งเหมาะกับการจัดการกับการเรียงลำดับของข้อมูลตัวอักษรต่างๆ
  • โมเดล Transformer: เป็นโมเดลที่ได้รับความนิยมในงานประมวลผลภาษาธรรมชาติ และสามารถประยุกต์ใช้กับ ocr เพื่อเพิ่มความแม่นยำในการรู้จำตัวอักษรได้เช่นกัน

นอกจากการเลือกโมเดล Deep Learning ที่เหมาะสมกับกับการทำ ocr ภาษาไทยแล้ว การปรับแต่งและฝึกให้โมเดล Deep Learning ทำงานได้แม่นยำขึ้น ด้วยการเก็บรวบรวมข้อมูลสำหรับการเรียนรู้ที่ได้คุณภาพและมีจำนวนที่มากเพียงพอ รวมถึงการปรับแต่งค่าพารามิเตอร์ต่างๆ ให้เหมาะสำหรับโมเดลนั้นๆ ก็ถือเป็นอีกหนึ่งปัจจัยสำคัญเช่นกัน

3. การประมวลผลภาพหลังจากการทำ OCR ภาษาไทย เรียบร้อยแล้ว (Post-processing)

ภายหลังจากการทำ ocr ภาษาไทย เพื่อแปลงรูปภาพให้กลายเป็นข้อมูลเสร็จสิ้นแล้ว อันที่จริงข้อมูลหลังจากการทำ ocr สามารถนำไปใช้งานได้จริงตามที่ผู้ใช้ต้องการผ่านไฟล์ในรูปแบบต่างๆ (เช่น xls, csv หรือ json) เพียงแต่รูปแบบงานบางประเภท อาจต้องมีการประมวลผลเพิ่มเติม ซึ่งนอกจากจะช่วยแก้ไขข้อผิดพลาดที่เกิดขึ้นได้จากการอ่านตัวอักษรแล้ว ยังมีประโยชน์ต่อการนำเอาข้อมูลไปผสานกับระบบต่างๆ ตามที่ต้องการได้โดยอัตโนมัติ ตัวอย่างเช่น:

  • การตรวจสอบความถูกต้องเชิงไวยากรณ์: คือการ Post process เพื่อตรวจสอบว่า ocr มีการใช้ไวยากรณ์และกฎของภาษาไทยได้อย่างถูกต้องตามที่ผู้ใช้ต้องการหรือไม่
  • การ Mapping data หรือ Reformat data: คือการจับคู่ชุดของข้อมูลที่ได้จากการทำ ocr ให้เหมาะสมกับรูปแบบของฐานข้อมูล (Database) ที่ผู้ใช้งานจัดเก็บเอาไว้ เช่น ข้อมูลชื่อที่อยู่ ข้อมูลเลขประจำตัวบัตรประชาชน หรือรูปแบบของไฟล์ xls ที่มีการระบุฟิลด์ (Field) ที่ต้องการ

โดยสรุปก็คือ การเพิ่มความแม่นยำของเทคโนโลยี ocr ภาษาไทยนั้น จำเป็นต้องใช้การผสานรวมของเทคนิคทั้งในด้านการประมวลผลภาพ การใช้เทคโนโลยีเชิงลึก และการปรับปรุงโมเดลและข้อมูลที่ต้องใช้ในการเรียนรู้อย่างต่อเนื่อง โดยผลลัพธ์ความแม่นยำของการทำ ocr จะขึ้นอยู่กับความเข้มข้นในการฝึกอบรมและความละเอียดในการปรับแต่งข้อมูลและโมเดลที่ใช้

ซึ่งสำหรับ AppMan แล้ว เรามีการพัฒนาโมเดล Deep Learning ที่มีความเหมาะสมกับรูปแบบเอกสารภาษาไทยมาอย่างยาวนาน ซึ่งส่งผลให้การทำ ocr ภาษาไทยมีความแม่นยำ และสามารถ Post process ให้เหมาะสมกับรูปแบบของเอกสารประเภทต่างๆ ตามที่ภาคธุรกิจต้องการได้อย่างตรงเป้า

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *