การค้นคืนสารสนเทศข้ามภาษา หรือการสืบค้นข้ามภาษา (Cross-Language Information Retrieval หรือ CLIR)

การค้นคืนสารสนเทศข้ามภาษา หรือการสืบค้นข้ามภาษา (Cross-Language Information Retrieval หรือ CLIR) เป็นส่วนหนึ่งของการสืบค้นหรือการค้นคืนสารสนเทศ  หมายถึง การค้นคืนสารสนเทศซึ่งภาษาที่แสดงในเอกสารไม่ตรงกับภาษาที่ใช้เป็นคำค้น  เนื่องจากเอกสารหรือสารสนเทศมีหลากหลายภาษา การใช้คำค้นด้วยภาษาใดภาษาหนึ่ง จะทำให้ไม่สามารถค้นคืนข้อมูลที่มีอยู่เป็นจำนวนมากแต่อาจจะแสดงอยู่ในภาษาอื่นๆ ไม่ได้ถูกดึงขึ้นมา เช่น การใช้คำภาษาไทยเป็นคำค้น จะทำให้ไม่พบเอกสารที่เขียนด้วยภาษาอื่น ตัวอย่าง เช่น ถ้าต้องการสืบค้นคำว่า ฐานข้อมูล ก็จะพบเฉพาะเอกสารที่มีเฉพาะคำว่า ฐานข้อมูลในเอกสารภาษาไทยเท่านั้น ข้อมูลเรื่องฐานข้อมูลในเอกสารภาษาอื่นๆ จะไม่ได้ถูกดึงขึ้นมา ซึ่งจะเป็นการพลาดโอกาสในการใช้เอกสารที่มีประโยชน์ได้

การใช้เทคนิคการค้นคืนข้ามภาษานี้ จะเป็นการเพิ่มศักยภาพของระบบ ทำให้ผู้ใช้สามารถสืบค้นเอกสารได้หลากหลายภาษา คนแต่ละเชื้อชาติ มักจะคุ้นเคยกับภาษาประจำชาติของตน การนึกคำค้นจึงแคบอยู่แต่ในภาษาของตนเอง การมีระบบการค้นคืนข้ามภาษาจึงเป็นตัวช่วยได้เป็นอย่างดี ตัวอย่าง เช่น ค้นคำว่า ฐานข้อมูล ในระบบอาจจะใช้วิธีการขยายคำค้นคืนเป็น “ฐานข้อมูล OR database” ก็จะทำให้ได้ข้อมูลไม่ว่าเป็นเอกสารในภาษาไทยหรืออังกฤษ เป็นต้น

ในบทความนี้ ขอนำเสนอเพียงประสบการณ์ในการช่วยหาคำแปลคำค้นในภาษาไทย หรือการแปลคิวรี่ (query) เท่านั้น เพื่อนำมาพัฒนาต่อในส่วนที่เป็นการสืบค้นข้ามภาษา แต่จะไม่กล่าวถึงส่วนของการพัฒนาระบบแต่อย่างใด

ในฐานะที่อยู่ในวงการบรรณารักษศาสตร์และสารสนเทศศาสตร์ ขอกล่าวถึงการกำหนดคำค้น/หัวเรื่อง/คำสำคัญ เป็นการให้ข้อมูลเป็นเบื้องต้น เพื่อจะได้โยงไปถึงเหตุผลในการกำหนดคำค้น/หัวเรื่อง/คำสำคัญเพื่อสนับสนุนการสืบค้นข้ามภาษาที่จะกล่าวถึงต่อไป

แต่เดิม ในลงรายการทรัพยากรสารสนเทศของบรรณารักษ์นั้น การกำหนดคำค้นหรือหัวเรื่องจะยึดถือตามแนวปฏิบัติของกำหนดหัวเรื่อง ซึ่งเป็นการกำหนดด้วยภาษาควบคุมหรือคำศัพท์ควบคุม (Controlled vocaburaly) โดยยึดถือเอาภาษาของเอกสารเป็นสำคัญในการลงรายการในระเบียนทางบรรณานุกรมของระบบห้องสมุด รวมทั้งการกำหนดคำค้น/หัวเรื่อง/คำสำคัญ แม้ว่าต่อมาจะมีการขยายการกำหนดโดยเพิ่มเป็นอีกภาษาหนึ่งนั้น ก็อาจจะทำเป็นบางประเภทของทรัพยากรสารสนเทศ ยังมิได้มีการจัดทำกับสารสนเทศโดยทั่วไป ด้วยเหตุต้องใช้เวลาในการแปลคำศัพท์จากภาษาไทยเป็นภาษาอังกฤษ หรือเทียบภาษาอังกฤษเป็นภาษาไทย และน่าจะมีการปรับการกำหนดคำค้น/หัวเรื่อง/คำสำคัญ ขึ้นอีกช่วงหนึ่ง เนื่องจากการเข้ามาของ web 2.0 และ social media อื่นๆ ที่ผู้ใช้เป็นผู้สร้างเนื้อหา (content) เองสามารถกำหนดคำค้น (tag) ขึ้นด้วยตนเอง รูปโฉมของการกำหนดคำค้น/หัวเรื่อง/คำสำคัญของบรรณารักษ์หรือผู้ปฏิบัติงานทางด้านสารสนเทศ ก็ควรจะมีการเปลี่ยนหรือปรับตัวกันไปตามเทคโนโลยี ทั้งนี้ ก็เพื่อให้ผู้ใช้นึกถึงคำค้นที่กลายเป็นภาษาธรรมชาติ (natural language) มากขึ้น การกำหนดคำค้น/หัวเรื่อง/คำสำคัญ จึงอาจจะมีได้ทั้งคำศัพท์ควบคุมหรือภาษาควบคุม หรือคำจากภาษาธรรมชาติก็ได้ และคำจากภาษาธรรมชาติอาจจะกลายเป็นคำศัพท์ควบคุมหรือภาษาควบคุมในภายหลังก็เป็นได้

การจัดเตรียมคำศัพท์เพื่อนำไปพัฒนาและสนับสนุนการสืบค้นข้ามภาษานั้น เป็นการแปลคิวรี่ (query)โดย

  •  แปลคำศัพท์ภาษาอังกฤษเป็นภาษาไทย ซึ่งมีการกำหนดเป็นคำในภาษาไทยอยู่แล้ว โดยการแปลอย่างเป็นทางการโดยราชบัณฑิตยสถาน การกำหนดเป็นคำค้นในระบบห้องสมุด หรือแม้แต่เป็นการแปลโดยนักวิชาการซึ่งก็มีหลายสถาบัน/หน่วยงานที่อาจจะกำหนดใช้แตกต่างกันตามลักษณะของการนำไปใช้ของแต่ละองค์กร หรือการกำหนดเป็นภาษาไทยขึ้นเอง จึงทำให้เกิดมีความหลากหลายในการใช้คำภาษาไทยกับคำภาษาอังกฤษเพียงคำเดียว เช่นanaerobic การพร่องออกซิเจน;ที่ไม่มีออกซิเจน;ที่ไม่มีอากาศ;แอนแอโรบิค
    amebiasis อะมีบิเอซิส;โรคจากเชื้อบิดอะมีบา;โรคบิดมีตัว;บิด;โรคบิด;บิดอะมีบา;อะมีบา
    anamnesis ความสามารถจำ;ประวัติการป่วย (แพทยศาสตร์);การย้อนรำลึก (วรรณกรรม)
  •  แปลเพิ่มเติมเพื่อให้มีการเข้าถึงมากขึ้น เนื่องจากพบว่า มีการใช้อยู่ในบางคำที่พบ เช่นalginic acid กรดแอลจินิก; แอลจินิกแอซิด
    และเพิ่มการเขียนที่แตกต่าalginic acid  กรดแอลจินิก;กรดอัลจินิก;แอลจินิกแอซิด;อัลจินิกแอซิด
    ZnO      ซิงค์ออกไซด์;สังกะสีออกไซด์
  • ใช้คำทับศัพท์ ซึ่งพบว่า มีการเขียนหลายแบบ เช่น
    Alkalies อัลคาไล;อัลคาไลน์;แอลคาไลน์
    Alkaloids อัลคาลอยด์;แอลคาลอยด์
    alpha thalassemia แอลฟา-ธาลัสซีเมีย;อัลฟา-ธาลัสซีเมีย
    Aluminum Silicates  อลูมินัมซิลิเคท;อะลูมินัมซิลิเคท;อะลูมิเนียมซิลิเคท;อลูมิเนียมซิลิเคท;อลูมินัมซิลิเคต;อะลูมินัมซิลิเคต;อะลูมิเนียมซิลิเคต;อลูมิเนียมซิลิเคต
    aneuploidy อะนิวพลอยดีย์;อนูปลอยดีย์
    polymer พอลิเมอร์; โพลิเมอร์
    Actins     แอคติน;แอกทิน
  •  กำหนดเองโดยผู้เขียนเนื้อหา กล่าวคือ ผู้เขียนมีการกำหนดคำแปลขึ้นเอง เช่น
    Anaerobic baffled reactor ถังปฏิกรณ์แผ่นกั้นไร้อากาศ;ถังปฏิกรณ์ไร้อากาศแบบแผ่นกั้น;เครื่องปฏิกรณ์แผ่นกั้นไร้อากาศ;เครื่องปฏิกรณ์ไร้อากาศแบบแผ่นกั้น
  • คงคำศัพท์เป็นภาษาอังกฤษ ถ้าไม่สามารถหาได้ หลีกเลี่ยงในการท้บศัพท์เอง เพื่อป้องกันการคลาดเคลื่อน ได้แก่ สูตร ชื่อทางเคมี ชื่อทางพฤกษศาสตร์ ชื่อสปีชีย์ ชื่อเชื้อโรค เช่น
    4 (4 fluorophenyl) 2 (4 methylsulfinylphenyl)
    5 (4 pyridyl)imidazole
    Aigialus parvus
    Weissella cibaria
  •  ตัวย่อ ซึ่งเมื่อต้องแปลเป็นภาษาไทย ทำให้ต้องทำความเข้าใจว่าน่าจะเกี่ยวข้องกับสาขาใด เรื่องใด และอาจจะเกี่ยวข้องกับหลายสาขา บางครั้งจึงต้องคงคำภาษาอังกฤษนั้นไว้ เช่น XCS, VSM เป็นต้น
  •  การให้คำสำคัญ คำค้น หัวเรื่อง เป็นวลี ทำให้แปลแล้วอาจจะไม่ได้ใจความ จึงคงภาษาอังกฤษไว้ เช่น waste facility, walking difficulty เป็นต้น
  •  การให้คำสำคัญ คำค้น หัวเรื่อง หลากหลายวิธีเขียน จึงต้องพยายามจัดกลุ่มคำและเพื่อให้เขียนเป็นแบบแผนเดียวกัน เช่นX ray diffraction การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X- ray diffractions การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X-Ray Diffraction การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X-ray diffraction การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X-ray diffractions การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน

ประสบการณ์ที่ได้นำเสนอเบื้องต้น เป็นการดำเนินการโดยความเข้าใจของผู้เขียนเท่านั้น ซึ่งกำหนดโดยพิจารณาว่าพยายามหาคำค้น/หัวเรื่อง/คำสำคัญ ให้ได้มากที่สุดเพื่อประโยชน์ในการสืบค้นข้ามภาษา ยังต้องมีการทดลองถึงการใช้คำเหล่านี้ต่อการสืบค้นต่อไป

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s