Data Science Data Analytics ในการบริหารห้องสมุดในศตวรรษที่ 21

จากการเข้าร่วมการสัมมนาทางวิชาการประจำปี เรื่อง Data Science Data Analytics ในการบริหารห้องสมุดในศตวรรษที่ 21  เมื่อวันที่  15 กุมภาพันธ์ พ.ศ. 2562  ณ สำนักหอสมุด มหาวิทยาลัยเกษตรศาสตร์ ประกอบด้วยการบรรยาย  5 หัวข้อ ได้แก่

  • AI and Big Data in KU  โดย ผศ. ดร. ภุชงค์ อุทโยภาส (รองอธิการบดีฝ่ายสารสนเทศ มหาวิทยาลัยเกษตรศาสตร์)
  • Library Analytic and Matrix Using Data to Driven Decision Services โดย Dr.Jin Chen (Shanghai Jiao Tong University Library)
  • AI กับงานห้องสมุด โดย ผศ. ดร สุกรี สินธุภิญโญ (ภาควิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย)
  • การเสวนาวิชาการเรื่อง Data Analytics จากประสบการณ์สู่การประยุกต์ใช้เพื่อการบริหารจัดการห้องสมุด  โดย ผศ. ดร สุกรี สินธุภิญโญ อาจารย์สาโรช เมาลานนท์ (ผู้อำนวยการสำนักหอสมุด มหาวิทยาลัยศรีนครินทรวิโรฒ) ผศ. ดร. ศจี ศิริไกร (สาขาวิชาบริหารปฏิบัติการ คณะพาณิชยศาสตร์และการบัญชี มหาวิทยาลัยธรรมศาสตร์)  และนายอภิยศ เหรียญวิพัฒน์ (นักวิชาการคอมพิวเตอร์ชำนาญการ สำนักหอสมุด มหาวิทยาลัยเกษตรศาสตร์) ดำเนินรายการโดย รศ. ดร. สมชาย นำประเสริฐชัย (ผู้อำนวยการ สำนักบริการคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์)
  • SciVal เครื่องมือช่วยการวิเคราะห์ข้อมูลการวิจัย โดย นางสาวมณีรัตน์ จอมพุก (ผู้อำนวยการกองบริหารงานวิจัย มหาวิทยาลัยมหิดล

จะขอสรุปในส่วนที่เกี่ยวข้องกับห้องสมุด ดังนี้ Continue reading

การใช้ข้อมูลขนาดใหญ่ของหน่วยงาน 8 แห่ง

ไม่น่าเชื่อก็ต้องเชื่อค่ะ ว่ามีการใช้ข้อมูลกันมากมายมหาศาลขนาดนี้ พบบทความนี้ เลยสรุปมาให้อ่านกันค่ะ แต่ละแห่งเก็บอะไร เพื่อนำไปใช้อะไร มีเกี่ยวข้องกับการเก็บและให้บริการสื่อสาระดิจิทัล และ ในเรื่องของ archive รวมอยู่ด้วย

ปริมาณของข้อมูลในโลกเพิ่มขึ้นอย่างรวดเร็ว เป็นทวีคุณทุกๆ 18 เดือน นี่คือโลกยุคปัจจุบันของการใช้ข้อมูลขนาดใหญ่ของหน่วยงาน 8 แห่ง

NOAA เก็บข้อมูลมากกว่า สามหมื่นห้าพันล้าน (เข้าใจว่าหน่วยเป็นไบต์ และต่อวัน-ผู้สรุป) จากดาวเทียม เรือ เครื่องบน และอื่นๆ เพื่อใช้ในการวัดบรรยากาศ สมุทรศาสตร์และภาคพื้นดิน

AM Biotechnologies ในการพัฒนา Aptamers ซึ่งเป็นโมเลกุลพิเศษ เพื่อนำยาไปจ่ายในจุดต่างๆของร่างกายได้อย่างแม่นยำ ต้องใช้ข้อมูลลำดับเบสดีเอ็นเอสายสั้นนับหมื่นล้านขึ้นไป จึงต้องใช้เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่บนเว็บเบสจาก CD-HIT และ Galaxy เพื่อสังเคราะห์ข้อมูล

NARA (National Archive and Records Administration) จัดการกับข้อมูลแบบบันทึกถาวร 142 เทราไบต์และที่เพิ่มพูนมากขึ้นเรื่อยๆ โดยเป็นวัตถุที่เก็บมีมากกว่า 7 พันล้านชิ้น รวมข้อมูลจากระบบนิเวศของรัฐบาลกลาง ห้องสมุดรัฐสภาอเมริกันและห้องสมุดของประธานาธิบดีอื่นๆ ข้อมูลได้ถูกดิจิไทซ์มากกว่า 4800 รูปแบบที่แตกต่างกัน และยังคงเดินหน้าการดิจิไทซ์มากกว่า 4 ล้านลูกบาศก์ฟุตของเอกสารที่มีอยู่เดิม โดยต้องสามารถให้นักวิจัยเข้าใช้ได้ ไม่ต่ำกว่า 95% ภายในปี 2016 NARA ได้สร้างคลังจัดเก็บถาวรอิเล็กทรอนิกส์ (Electronic Records Archive) ในชื่อว่า ระบบแห่งระบบ (System of systems) เพื่อให้มีศักยภาพให้เข้าถึงจดหมายเหตุได้มากขึ้น

Vestas ใช้ supercomputers กับข้อมูลขนาดใหญ่ในการจำลองข้อมูลเพื่อระบุตำแหน่งที่ดีที่สุดของกังหันลม สำหรับผลิตกระแสไฟฟ้า จึงต้องอาศัยข้อมูลภูมิอากาศทั่วโลก ปัจจุบันข้อมูลลมนี้มีปริมาณเกือบ 2.8 เพทาไบต์ (1 เพทาไบต์ (Petabyte) คือ 1 พันล้านล้านไบต์)

นับตั้งแต่ Internal Revenue Service (คือ กรมสรรพากรของสหรัฐฯ) เริ่มอัพโหลดข้อมูลการคืนภาษีในปี ค.ศ. 1996 โครงการดังกล่าวมีผลทำให้ต้องใช้ข้อมูลขนาดใหญ่มากกว่า 1 เพทาไบต์

UOIT ร่วมกับ IBM ดำเนินโครงการ Artemis ในการพยายามพัฒนาเทคโนโลยีการตรวจสอบทางการแพทย์ เพื่อให้มีการเตือนสภาพร่างการของทารกแรกเกิดก่อนที่สัญญาณชีพจะถึงระดับ วิกฤต โครงการ Artemis ต้องใช้ซอฟต์แวร์ในการวิเคราะห์ข้อมูลแบบสตรีมมิ่งเพื่อให้สามารถตัดสินใจ ได้ อย่างทันทีโดยการวิเคราะข้อมูลอย่างต่อเนื่อง

TerraEchos เชี่ยวชาญในเทคโนโลยีที่ออกแบบเพื่อปกป้องและตรวจสอบโครงสร้างพื้นฐานที่ สำคัญระดับประเทศ เช่น ไฟฟ้า ประปา โทรศัพท์ ห้องปฏิบัติการของกระทรวงพลังงานสหรัฐอเมริกาเป็นลูกค้าสำคัญของ TerraEchos ในการใช้เทคโนโลยีเพื่อตรวจสอบ จำแนกตำแหน่ง และติดตามภัยคุกคาม ซึ่งต้องอาศัยเซ็นเซอร์ ซอฟต์แวร์การวิเคราะห์ และ high-performance computing ในการวิเคราะห์ข้อมูลทั้งหมดในแต่ละช่วงเวลา จากการเคลื่อนไหวของมนุษย์และสัตว์ไปจนถึงสภาพบรรยากาศ

ตั้งแต่ปี ค.ศ. 1959 NASA’s Johnson Space Center รวบรวมข้อมูลภาพนิ่งมากกว่า 4 ล้านภาพ ฟิล์ม 16 มม. ความยาว 9.5 ล้าน วิดีทัศน์ 85,000 ม้วน และแฟ้มข้อมูลที่เป็นตัวแทน 81,616 ชั่วโมงของวิดีทัศน์ในรูปแบบอนาลอกและดิจิทัล ข้อมูลเหล่านี้ถูกใช้เป็นสื่อสาระดิจิทัลเพื่อการสืบค้นทางวิทยาศาสตร์และ วิศวกรรมศาสตร์ NASA ได้สร้างโปรแกรมที่ชื่อว่า Imagery Online ซึ่งเชื่อมโยงแฟ้มข้อมูลภาพไปยังเมทาดาทาที่เกี่ยวข้องของสาระเหล่านี้ แต่ก็ยังมีปัญหาที่ต้องเผชิญในการให้บริการข้อมูลออกสู่สาธารณะทั้งในรูปแบบ ต้นฉบับ (native form) และการลดขนาด เพื่อให้เข้าถึงได้ง่ายขึ้น

ที่มา: Olavsrud, Thor. 2012.  8 real-world big data deployments. http://www.infoworld.com/slideshow/73627/8-real-world-big-data-deployments-206796 เข้าถึงเมื่อ 13-12-2555

สั้นๆ กับ Big Data

คำว่า Big data กลายเป็นคำที่มาแรงในตอนนี้ แต่เมื่อ 70 ปีกว่ามาแล้ว ได้มีคำที่แสดงถึงจำนวนหรือกลุ่มของข้อมูลเกิดขึ้นและเป็นที่รู้จักกันในคำ ว่า “Information explosion” ภาษาไทยมีการแปลว่า “การทะลักทะลายของสารสนเทศ”  คุณ Gil Press ได้สรุปประวัติและพัฒนาการของขนาดของข้อมูล มาให้อ่าน เริ่มตั้งแต่ปี ค.ศ. 1944 จนถึงปี 2012 ที่ Danah Boyd และ Kate Crawford เขียนเรื่อง “Critical Questions for Big Data” ลงใน Information, Communications, and Society ขึ้นมา น่าสนใจเลยส่ง link (http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/) มาให้อ่านกันค่ะ

5 เทคโนโลยีในอนาคตที่น่าจับตามองในปี 2013

IEEE Computer Society ได้พูดถึงเทคโนโลยีที่ควรจับตามองในปี 2013 ไว้ดังนี้

1. Internet of Things (IoT) จะมีการใช้งานที่เป็นจริงมากยิ่งขึ้น
2. การใช้ภาพและเทคโนโลยีในการวิเคราะห์ข้อมูลช่วยแก้ปัญหาความท้าทายของ Big Data
3. เทคโนโลยี Cloud computing (Hybrid clouds และ personal clouds)
4. การควบคุมตรวจสอบอินเทอร์เน็ตจะเพิ่มมากขึ้น
5. การพัฒนาเครื่องมือและวิธีการในการเพิ่มพลังให้กับคอมพิวเตอร์ที่มีหลายหน่วยประมวลผล (multicore computing) Continue reading