บทเรียน

การจัดการที่อยู่ภาษาไทยในเอกสารขนส่งสินค้า

เอกสารขนส่งสินค้าไทยมักผสมข้อความไทยและอังกฤษ บทเรียนนี้อธิบายวิธีที่ KabyTech ตรวจจับ แยกวิเคราะห์ และปรับปรุงที่อยู่ภาษาไทยสำหรับระบบปลายทาง

ภาพรวม

ที่อยู่ภาษาไทยบนเอกสาร air waybill และเอกสารขนส่งสร้างความท้าทายเฉพาะสำหรับ OCR อักษรไทยเป็นระบบอักษรแบบ abugida ที่ไม่มีช่องว่างระหว่างคำ ใช้เครื่องหมายรวม (สระด้านบนและด้านล่าง วรรณยุกต์) และที่อยู่ผสมภาษาไทยกับภาษาอังกฤษบ่อยครั้ง เอกสาร freight มักมีชื่อผู้ส่งเป็นภาษาไทยกับรหัสไปรษณีย์เป็นตัวเลขอาระบิกและชื่อประเทศเป็นภาษาอังกฤษ

บทเรียนนี้ครอบคลุมสามส่วน: การตรวจจับอักษรไทย การแยกวิเคราะห์ที่อยู่ตามลำดับชั้นการปกครอง (จังหวัด/อำเภอ/ตำบล) และการทับศัพท์พร้อมจับคู่กับระบบปลายทาง

ขั้นตอนที่ 1 — การตรวจจับอักขระไทย

ขั้นตอนแรกระบุว่าส่วนใดของเอกสารมีอักษรไทย API ใช้ตัวจำแนกประเภทอักษรที่รันก่อน OCR เต็มรูปแบบ ตัวจำแนกระบุภูมิภาคอักษรไทยที่ระดับ bounding box ให้ OCR engine ใช้โมเดลภาษาที่เหมาะสมสำหรับแต่ละภูมิภาค

สำหรับเอกสาร freight ทั่วไป ส่วนที่เป็นอักษรไทยมักจะปรากฏในฟิลด์ชื่อผู้ส่ง ชื่อผู้รับ ที่อยู่ และคำอธิบายสินค้า ตัวจำแนกจัดการข้อความผสมภาษาได้ ตัวอย่างเช่น ที่อยู่ที่มีชื่อถนนเป็นภาษาไทยตามด้วยรหัสไปรษณีย์ 5 หลักและ "Thailand" เป็นภาษาอังกฤษจะถูกแยกเป็น Thai zone และ Latin zone อย่างถูกต้อง

ขั้นตอนที่ 2 — การแยกวิเคราะห์ที่อยู่ (จังหวัด / อำเภอ / ตำบล)

เมื่อดึงข้อความไทยได้แล้ว address parser จะแบ่งเป็นส่วนประกอบที่มีโครงสร้าง ที่อยู่ไทยมักเรียงจากล่างขึ้นบน: หมายเลขบ้าน ถนน ตำบล (แขวง) อำเภอ (เขต) จังหวัด รหัสไปรษณีย์ parser ใช้ dictionary ลำดับชั้นที่ปรับปรุงจากข้อมูลกรมการปกครอง ครอบคลุมจังหวัด 77 แห่ง อำเภอ 928 แห่ง และตำบล 7,436 แห่ง

parser จัดการรูปแบบต่างๆ ทั่วไปใน freight documents ได้แก่ ที่อยู่ย่อ (ละ "จังหวัด" หรือ "อำเภอ") ลำดับสลับ และชื่อที่สะกดผิดโดยใช้ fuzzy matching กับฐานข้อมูลที่อยู่ทางการ ผลลัพธ์จะรวม structured fields และคะแนนความมั่นใจสำหรับแต่ละส่วนประกอบ

ขั้นตอนที่ 3 — การทับศัพท์และการจับคู่

ระบบปลายทางจำนวนมาก เช่น แพลตฟอร์ม TMS ตัวแทนศุลกากร ระบบสินค้าสายการบิน ต้องการที่อยู่เป็นอักษรละติน KabyTech มีการทับศัพท์อัตโนมัติโดยใช้ Royal Thai General System (RTGS) ซึ่งเป็นมาตรฐานราชการไทย ระบบยังจัดการชื่อที่มีการทับศัพท์ที่เป็นที่ยอมรับหลายแบบ เช่น สุวรรณภูมิ สามารถเขียนเป็น "Suvarnabhumi" หรือ "Suwannaphum"

เครื่องมือจับคู่เปรียบเทียบที่อยู่ที่ทับศัพท์แล้วกับฐานข้อมูลลูกค้าของคุณโดยใช้ normalized string matching ซึ่งจัดการชื่อ "Khlong Toei" vs "Klong Toey" vs "คลองเตย" ที่ล้วนอ้างถึงเขตเดียวกัน อัตราจับคู่โดยทั่วไปเกิน 97% สำหรับที่อยู่ไทยมาตรฐานบนเอกสาร freight

สรุป

การจัดการที่อยู่ภาษาไทยในเอกสาร freight ต้องการ OCR เฉพาะทาง การแยกวิเคราะห์ลำดับชั้นการปกครอง และการทับศัพท์ Pipeline ของ KabyTech ครอบคลุมทั้งสามขั้นตอนใน API call เดียว จากเอกสาร freight สแกนสู่ข้อมูลที่อยู่ที่มีโครงสร้างพร้อมทั้งอักษรไทยและอักษรละติน

ประเด็นสำคัญ: การตรวจจับอักษรทำงานที่ระดับ bounding box เพื่อให้ข้อความผสมภาษาได้รับ OCR ที่เหมาะสมสำหรับแต่ละส่วน address parser ครอบคลุมทุกจังหวัด อำเภอ และตำบลด้วย fuzzy matching และการทับศัพท์ใช้ RTGS มาตรฐานพร้อมจับคู่แบบยืดหยุ่นสำหรับการสะกดแบบอื่น

กำลังประมวลผลเอกสารขนส่งสินค้าไทย?

โมเดล Thai OCR ของ KabyTech ได้รับการฝึกด้วยข้อมูลขนส่งจริงจากธุรกิจโลจิสติกส์ไทย