หากคุณเคยพยายามสร้างตัวแยกวิเคราะห์สำหรับข้อความ IATA Cargo-IMP FWB คุณจะรู้ว่าบางส่วนตรงไปตรงมาและบางส่วนไม่ใช่ ส่วนหมายเลข AWB เป็นฟิลด์ 11 หลักง่ายๆ ส่วนเส้นทางเป็นรหัสสนามบิน IATA สามหรือสี่รหัส แต่แล้วก็มี RTD — ส่วน Rate Description — และทุกอย่างเปลี่ยนไป
RTD คือที่ที่รายละเอียดทางการค้าของการขนส่งอยู่: จำนวนชิ้น น้ำหนัก ประเภทอัตราที่ใช้ รหัสสินค้าคืออะไร และค่าใช้จ่ายรวมเท่าไร ฟังดูง่ายจนกว่าคุณจะรู้ว่า AWB เดียวสามารถมีรายการ RTD แยกกันได้สูงสุด 11 รายการ แต่ละรายการมีองค์ประกอบย่อยที่แตกต่างกันถึง 12 รายการ โดยมีฟิลด์เงื่อนไขที่ปรากฏหรือหายไปตามประเภทอัตรา และคำอธิบายลักษณะสินค้าแบบข้อความอิสระที่อาจครอบคลุมหลายบรรทัดต่อเนื่อง
บทความนี้อธิบายว่าทำไม RTD จึงเป็นส่วนที่ซับซ้อนที่สุดในมาตรฐาน FWB อะไรที่ทำให้มันยากต่อการแยกวิเคราะห์อย่างน่าเชื่อถือ และวิธีการของ KabyTech บรรลุความถูกต้องในการดึงข้อมูล RTD มากกว่า 97% ได้อย่างไร
แต่ละรอบซ้ำ RTD (รายการ) ประกอบด้วยองค์ประกอบย่อยต่อไปนี้ ตามที่กำหนดในมาตรฐาน IATA Cargo-IMP:
การขนส่งแบบง่าย — สินค้าประเภทเดียว อัตราเดียว — มีบรรทัด RTD เพียงบรรทัดเดียว แต่การขนส่งแบบรวมตู้อาจมี 8, 9 หรือแม้แต่สูงสุด 11 บรรทัด RTD แต่ละบรรทัดมีประเภทอัตราและรหัสสินค้าที่แตกต่างกัน ตัวแยกวิเคราะห์ต้องระบุอย่างถูกต้องว่า RTD รอบหนึ่งจบตรงไหนและรอบถัดไปเริ่มตรงไหน โดยไม่มีตัวคั่นชัดเจนระหว่างกันในรูปแบบเอกสาร AWB หลายรูปแบบ
ในข้อความ FWB Cargo-IMP แบบข้อความดิบ โครงสร้างบรรทัดให้แนวทางบ้าง แต่ใน AWB ที่สแกนหรือ PDF ข้อมูล RTD มักปรากฏเป็นตารางที่ขอบเขตแถวถูกกำหนดโดยระยะห่างทางสายตาแทนที่จะเป็นเครื่องหมายที่ชัดเจน ระบบ KabyTech-OCR มักระบุจุดตัดแถวผิดพลาด โดยเฉพาะเมื่อคำอธิบายลักษณะสินค้าครอบคลุมหลายบรรทัด
การมีหรือไม่มีฟิลด์ขึ้นอยู่กับรหัสประเภทอัตรา บรรทัดประเภท M (ขั้นต่ำ) ไม่มีหมายเลขสินค้าและอาจไม่มีฟิลด์น้ำหนัก บรรทัดประเภท U (ULD) มีฟิลด์ประเภทและหมายเลขลำดับ ULD ที่ไม่มีในประเภทอื่น บรรทัดประเภท C (สินค้าเฉพาะ) มีหมายเลขรายการสินค้าที่ประเภทอื่นไม่มี
นั่นหมายความว่าตัวแยกวิเคราะห์ไม่สามารถใช้เทมเพลตคงที่ในการดึงฟิลด์ RTD ต้องระบุประเภทอัตราก่อน จากนั้นจึงกำหนดว่าฟิลด์ใดที่ต้องคาดหวัง แล้วจึงพยายามดึงข้อมูล หากประเภทอัตราถูกอ่านผิด — เช่น "M" ถูก KabyTech-OCR อ่านเป็น "W" — การดึงข้อมูลทั้งบรรทัดจะล้มเหลวเพราะตัวแยกวิเคราะห์กำลังมองหาฟิลด์ที่ไม่มีอยู่
คำอธิบายลักษณะสินค้า (NG) สำหรับแต่ละบรรทัด RTD สามารถครอบคลุมถึง 11 บรรทัดต่อเนื่อง บรรทัดต่อเนื่องเหล่านี้มีลักษณะแตกต่างกันมากในรูปแบบ AWB ที่ต่างกัน ในบางรูปแบบจะย่อเข้าไป ในบางรูปแบบจะชิดซ้าย ในเอกสารที่สแกนบางฉบับจะปรากฏในคอลัมน์แยก ตัวแยกวิเคราะห์ต้องพิจารณาว่าบรรทัดข้อความเป็นการต่อเนื่องของคำอธิบาย NG ก่อนหน้าหรือเป็นจุดเริ่มต้นของ RTD รอบใหม่
ลองพิจารณาตัวอย่างจาก AWB จริง: การขนส่ง "FRESH DURIAN MONTHONG GRADE AA PACKED IN STYROFOAM BOXES WITH GEL PACKS" คำอธิบายนั้นครอบคลุม 3 บรรทัดบนแบบฟอร์ม AWB มาตรฐาน หากตัวแยกวิเคราะห์เข้าใจผิดว่าบรรทัดที่สองหรือสามเป็นรายการ RTD ใหม่ จะทำให้ทั้งฟิลด์ลักษณะสินค้าและข้อมูลอัตราถัดไปเสียหาย
ฟิลด์น้ำหนักและอัตราปรากฏในรูปแบบตัวเลขที่แตกต่างกันตามเอกสาร AWB บางฉบับใช้จุดเป็นตัวคั่นทศนิยม บางฉบับใช้คอมม่า บางฉบับมีตัวคั่นหลักพัน บางฉบับไม่มี บางฉบับเติมศูนย์นำหน้า บางฉบับไม่เติม น้ำหนักคิดค่าขนส่งอาจปรากฏเป็น "380.5", "380,5", "0380.50" หรือ "380.500" ขึ้นอยู่กับระบบต้นทางที่สร้าง AWB
ฟิลด์ยอดรวมเป็นปัญหาเป็นพิเศษเพราะเป็นตัวตรวจสอบข้าม: ยอดรวมควรเท่ากับน้ำหนักคิดค่าขนส่งคูณด้วยอัตรา แต่กฎการปัดเศษแตกต่างกันระหว่างสายการบิน ดังนั้นตัวแยกวิเคราะห์ที่ดึงน้ำหนักเป็น 380.5 และอัตราเป็น 2.45 อาจคาดหวังยอดรวม 932.23 ในขณะที่ยอดรวมที่พิมพ์จริงคือ 932.20 เนื่องจากสายการบินปัดลง ตัวแยกวิเคราะห์ต้องยืดหยุ่นต่อความแตกต่างของการปัดเศษเหล่านี้ในขณะที่ยังคงจับข้อผิดพลาดการดึงข้อมูลที่แท้จริง
ค่าขนส่ง RTD สามารถแสดงเป็นสกุลเงินต่างกันข้ามรายการภายใน AWB เดียวกัน (แม้ว่าจะพบไม่บ่อย) ที่พบบ่อยกว่าคือหน่วยน้ำหนัก (กิโลกรัม vs ปอนด์) ถูกประกาศครั้งเดียวในส่วน CVD แต่ต้องนำไปใช้อย่างสม่ำเสมอกับทุกบรรทัด RTD หากตัวแยกวิเคราะห์สูญเสียบริบทของหน่วยน้ำหนัก ค่าน้ำหนักทุกค่าในส่วน RTD จะถูกตีความผิด
วิธีการของเราในการแยกวิเคราะห์ RTD ใช้ตรรกะการดึงข้อมูล 3 ชั้น:
ก่อนดึงค่าใดๆ เราวิเคราะห์โครงสร้างทางสายตาหรือข้อความของบล็อก RTD เพื่อระบุขอบเขตรอบซ้ำ สำหรับข้อความ FWB แบบข้อความ ใช้ตัวระบุบรรทัดมาตรฐาน IATA สำหรับเอกสารที่สแกน/PDF เราใช้โมเดลวิเคราะห์เค้าโครงที่ระบุโครงสร้างตารางของพื้นที่ Rate Description และแมปแต่ละแถวทางสายตาไปยัง RTD รอบหนึ่ง
เมื่อขอบเขตรอบซ้ำถูกกำหนดแล้ว เราดึงรหัสประเภทอัตราก่อน ซึ่งเป็นตัวกำหนดเทมเพลตฟิลด์สำหรับส่วนที่เหลือของบรรทัด เราใช้โมเดลการรู้จำตัวอักษรเฉพาะทางสำหรับฟิลด์ประเภทอัตราเพราะเป็นตัวอักษรตัวเดียวที่หากระบุผิดจะส่งผลกระทบลุกลามไปยังการดึงข้อมูลถัดไป ความถูกต้องในการรู้จำประเภทอัตราของเราอยู่ที่ 99.4%
หลังจากดึงข้อมูลบรรทัด RTD ทั้งหมดแล้ว เราทำการตรวจสอบ 3 ขั้นตอน:
เมื่อการตรวจสอบล้มเหลว ระบบจะตั้งค่าสถานะบรรทัด RTD ที่เจาะจงสำหรับการตรวจสอบโดยมนุษย์ แทนที่จะส่งข้อมูลที่ไม่ถูกต้องไปยังขั้นตอนถัดไปอย่างเงียบๆ ในข้อมูลการผลิตของลูกค้าไทย AWB ประมาณ 2.3% ต้องการการตรวจสอบโดยมนุษย์ของฟิลด์ RTD อย่างน้อยหนึ่งฟิลด์ — ส่วนใหญ่เกิดจากเอกสารต้นฉบับที่คลุมเครือจริงๆ มากกว่าข้อผิดพลาดของตัวแยกวิเคราะห์
การขนส่งทางอากาศของไทยมีลักษณะเฉพาะบางประการที่ทำให้การแยกวิเคราะห์ RTD สำคัญเป็นพิเศษ สินค้าส่งออกที่เน่าเสียง่าย (ผลไม้ อาหารทะเล กล้วยไม้) มักใช้อัตราสินค้าเฉพาะ (ประเภทอัตรา C) ซึ่งหมายความว่าฟิลด์หมายเลขรายการสินค้าจะมีอยู่และต้องถูกดึงอย่างถูกต้อง สินค้าเกษตรแบบรวมตู้มักมี 5-8 บรรทัด RTD สำหรับสินค้าประเภทต่างๆ ภายในการขนส่งเดียวกัน และคำอธิบายลักษณะสินค้าสำหรับสินค้าเกษตรไทยมักยาวและละเอียดเพราะรวมถึงการระบุเกรด คำอธิบายบรรจุภัณฑ์ และบางครั้งข้อความภาษาไทยผสมกับภาษาอังกฤษ
นี่คือความซับซ้อนประเภทที่การแยกวิเคราะห์อัตโนมัติให้คุณค่ามากที่สุด พนักงานที่ใช้เวลา 5 นาทีต่อบรรทัด RTD สำหรับ AWB ที่มี 8 บรรทัดกำลังใช้เวลา 40 นาทีเฉพาะข้อมูล Rate Description KabyTech ดึงข้อมูลทั้ง 8 บรรทัดภายใน 2 วินาที ด้วยความถูกต้องที่เทียบเท่าหรือเหนือกว่าการกรอกด้วยมือ
อัปโหลด AWB ตัวอย่างและดูว่า KabyTech ดึงข้อมูลรายการ RTD ทุกรายการอย่างไร ทดลองฟรี ไม่ต้องใช้บัตรเครดิต