การใช้ข้อมูลขนาดใหญ่ของหน่วยงาน 8 แห่ง

ไม่น่าเชื่อก็ต้องเชื่อค่ะ ว่ามีการใช้ข้อมูลกันมากมายมหาศาลขนาดนี้ พบบทความนี้ เลยสรุปมาให้อ่านกันค่ะ แต่ละแห่งเก็บอะไร เพื่อนำไปใช้อะไร มีเกี่ยวข้องกับการเก็บและให้บริการสื่อสาระดิจิทัล และ ในเรื่องของ archive รวมอยู่ด้วย

ปริมาณของข้อมูลในโลกเพิ่มขึ้นอย่างรวดเร็ว เป็นทวีคุณทุกๆ 18 เดือน นี่คือโลกยุคปัจจุบันของการใช้ข้อมูลขนาดใหญ่ของหน่วยงาน 8 แห่ง

NOAA เก็บข้อมูลมากกว่า สามหมื่นห้าพันล้าน (เข้าใจว่าหน่วยเป็นไบต์ และต่อวัน-ผู้สรุป) จากดาวเทียม เรือ เครื่องบน และอื่นๆ เพื่อใช้ในการวัดบรรยากาศ สมุทรศาสตร์และภาคพื้นดิน

AM Biotechnologies ในการพัฒนา Aptamers ซึ่งเป็นโมเลกุลพิเศษ เพื่อนำยาไปจ่ายในจุดต่างๆของร่างกายได้อย่างแม่นยำ ต้องใช้ข้อมูลลำดับเบสดีเอ็นเอสายสั้นนับหมื่นล้านขึ้นไป จึงต้องใช้เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่บนเว็บเบสจาก CD-HIT และ Galaxy เพื่อสังเคราะห์ข้อมูล

NARA (National Archive and Records Administration) จัดการกับข้อมูลแบบบันทึกถาวร 142 เทราไบต์และที่เพิ่มพูนมากขึ้นเรื่อยๆ โดยเป็นวัตถุที่เก็บมีมากกว่า 7 พันล้านชิ้น รวมข้อมูลจากระบบนิเวศของรัฐบาลกลาง ห้องสมุดรัฐสภาอเมริกันและห้องสมุดของประธานาธิบดีอื่นๆ ข้อมูลได้ถูกดิจิไทซ์มากกว่า 4800 รูปแบบที่แตกต่างกัน และยังคงเดินหน้าการดิจิไทซ์มากกว่า 4 ล้านลูกบาศก์ฟุตของเอกสารที่มีอยู่เดิม โดยต้องสามารถให้นักวิจัยเข้าใช้ได้ ไม่ต่ำกว่า 95% ภายในปี 2016 NARA ได้สร้างคลังจัดเก็บถาวรอิเล็กทรอนิกส์ (Electronic Records Archive) ในชื่อว่า ระบบแห่งระบบ (System of systems) เพื่อให้มีศักยภาพให้เข้าถึงจดหมายเหตุได้มากขึ้น

Vestas ใช้ supercomputers กับข้อมูลขนาดใหญ่ในการจำลองข้อมูลเพื่อระบุตำแหน่งที่ดีที่สุดของกังหันลม สำหรับผลิตกระแสไฟฟ้า จึงต้องอาศัยข้อมูลภูมิอากาศทั่วโลก ปัจจุบันข้อมูลลมนี้มีปริมาณเกือบ 2.8 เพทาไบต์ (1 เพทาไบต์ (Petabyte) คือ 1 พันล้านล้านไบต์)

นับตั้งแต่ Internal Revenue Service (คือ กรมสรรพากรของสหรัฐฯ) เริ่มอัพโหลดข้อมูลการคืนภาษีในปี ค.ศ. 1996 โครงการดังกล่าวมีผลทำให้ต้องใช้ข้อมูลขนาดใหญ่มากกว่า 1 เพทาไบต์

UOIT ร่วมกับ IBM ดำเนินโครงการ Artemis ในการพยายามพัฒนาเทคโนโลยีการตรวจสอบทางการแพทย์ เพื่อให้มีการเตือนสภาพร่างการของทารกแรกเกิดก่อนที่สัญญาณชีพจะถึงระดับ วิกฤต โครงการ Artemis ต้องใช้ซอฟต์แวร์ในการวิเคราะห์ข้อมูลแบบสตรีมมิ่งเพื่อให้สามารถตัดสินใจ ได้ อย่างทันทีโดยการวิเคราะข้อมูลอย่างต่อเนื่อง

TerraEchos เชี่ยวชาญในเทคโนโลยีที่ออกแบบเพื่อปกป้องและตรวจสอบโครงสร้างพื้นฐานที่ สำคัญระดับประเทศ เช่น ไฟฟ้า ประปา โทรศัพท์ ห้องปฏิบัติการของกระทรวงพลังงานสหรัฐอเมริกาเป็นลูกค้าสำคัญของ TerraEchos ในการใช้เทคโนโลยีเพื่อตรวจสอบ จำแนกตำแหน่ง และติดตามภัยคุกคาม ซึ่งต้องอาศัยเซ็นเซอร์ ซอฟต์แวร์การวิเคราะห์ และ high-performance computing ในการวิเคราะห์ข้อมูลทั้งหมดในแต่ละช่วงเวลา จากการเคลื่อนไหวของมนุษย์และสัตว์ไปจนถึงสภาพบรรยากาศ

ตั้งแต่ปี ค.ศ. 1959 NASA’s Johnson Space Center รวบรวมข้อมูลภาพนิ่งมากกว่า 4 ล้านภาพ ฟิล์ม 16 มม. ความยาว 9.5 ล้าน วิดีทัศน์ 85,000 ม้วน และแฟ้มข้อมูลที่เป็นตัวแทน 81,616 ชั่วโมงของวิดีทัศน์ในรูปแบบอนาลอกและดิจิทัล ข้อมูลเหล่านี้ถูกใช้เป็นสื่อสาระดิจิทัลเพื่อการสืบค้นทางวิทยาศาสตร์และ วิศวกรรมศาสตร์ NASA ได้สร้างโปรแกรมที่ชื่อว่า Imagery Online ซึ่งเชื่อมโยงแฟ้มข้อมูลภาพไปยังเมทาดาทาที่เกี่ยวข้องของสาระเหล่านี้ แต่ก็ยังมีปัญหาที่ต้องเผชิญในการให้บริการข้อมูลออกสู่สาธารณะทั้งในรูปแบบ ต้นฉบับ (native form) และการลดขนาด เพื่อให้เข้าถึงได้ง่ายขึ้น

ที่มา: Olavsrud, Thor. 2012.  8 real-world big data deployments. http://www.infoworld.com/slideshow/73627/8-real-world-big-data-deployments-206796 เข้าถึงเมื่อ 13-12-2555