การใช้ข้อมูลขนาดใหญ่ของหน่วยงาน 8 แห่ง

ไม่น่าเชื่อก็ต้องเชื่อค่ะ ว่ามีการใช้ข้อมูลกันมากมายมหาศาลขนาดนี้ พบบทความนี้ เลยสรุปมาให้อ่านกันค่ะ แต่ละแห่งเก็บอะไร เพื่อนำไปใช้อะไร มีเกี่ยวข้องกับการเก็บและให้บริการสื่อสาระดิจิทัล และ ในเรื่องของ archive รวมอยู่ด้วย

ปริมาณของข้อมูลในโลกเพิ่มขึ้นอย่างรวดเร็ว เป็นทวีคุณทุกๆ 18 เดือน นี่คือโลกยุคปัจจุบันของการใช้ข้อมูลขนาดใหญ่ของหน่วยงาน 8 แห่ง

NOAA เก็บข้อมูลมากกว่า สามหมื่นห้าพันล้าน (เข้าใจว่าหน่วยเป็นไบต์ และต่อวัน-ผู้สรุป) จากดาวเทียม เรือ เครื่องบน และอื่นๆ เพื่อใช้ในการวัดบรรยากาศ สมุทรศาสตร์และภาคพื้นดิน

AM Biotechnologies ในการพัฒนา Aptamers ซึ่งเป็นโมเลกุลพิเศษ เพื่อนำยาไปจ่ายในจุดต่างๆของร่างกายได้อย่างแม่นยำ ต้องใช้ข้อมูลลำดับเบสดีเอ็นเอสายสั้นนับหมื่นล้านขึ้นไป จึงต้องใช้เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่บนเว็บเบสจาก CD-HIT และ Galaxy เพื่อสังเคราะห์ข้อมูล

NARA (National Archive and Records Administration) จัดการกับข้อมูลแบบบันทึกถาวร 142 เทราไบต์และที่เพิ่มพูนมากขึ้นเรื่อยๆ โดยเป็นวัตถุที่เก็บมีมากกว่า 7 พันล้านชิ้น รวมข้อมูลจากระบบนิเวศของรัฐบาลกลาง ห้องสมุดรัฐสภาอเมริกันและห้องสมุดของประธานาธิบดีอื่นๆ ข้อมูลได้ถูกดิจิไทซ์มากกว่า 4800 รูปแบบที่แตกต่างกัน และยังคงเดินหน้าการดิจิไทซ์มากกว่า 4 ล้านลูกบาศก์ฟุตของเอกสารที่มีอยู่เดิม โดยต้องสามารถให้นักวิจัยเข้าใช้ได้ ไม่ต่ำกว่า 95% ภายในปี 2016 NARA ได้สร้างคลังจัดเก็บถาวรอิเล็กทรอนิกส์ (Electronic Records Archive) ในชื่อว่า ระบบแห่งระบบ (System of systems) เพื่อให้มีศักยภาพให้เข้าถึงจดหมายเหตุได้มากขึ้น

Vestas ใช้ supercomputers กับข้อมูลขนาดใหญ่ในการจำลองข้อมูลเพื่อระบุตำแหน่งที่ดีที่สุดของกังหันลม สำหรับผลิตกระแสไฟฟ้า จึงต้องอาศัยข้อมูลภูมิอากาศทั่วโลก ปัจจุบันข้อมูลลมนี้มีปริมาณเกือบ 2.8 เพทาไบต์ (1 เพทาไบต์ (Petabyte) คือ 1 พันล้านล้านไบต์)

นับตั้งแต่ Internal Revenue Service (คือ กรมสรรพากรของสหรัฐฯ) เริ่มอัพโหลดข้อมูลการคืนภาษีในปี ค.ศ. 1996 โครงการดังกล่าวมีผลทำให้ต้องใช้ข้อมูลขนาดใหญ่มากกว่า 1 เพทาไบต์

UOIT ร่วมกับ IBM ดำเนินโครงการ Artemis ในการพยายามพัฒนาเทคโนโลยีการตรวจสอบทางการแพทย์ เพื่อให้มีการเตือนสภาพร่างการของทารกแรกเกิดก่อนที่สัญญาณชีพจะถึงระดับ วิกฤต โครงการ Artemis ต้องใช้ซอฟต์แวร์ในการวิเคราะห์ข้อมูลแบบสตรีมมิ่งเพื่อให้สามารถตัดสินใจ ได้ อย่างทันทีโดยการวิเคราะข้อมูลอย่างต่อเนื่อง

TerraEchos เชี่ยวชาญในเทคโนโลยีที่ออกแบบเพื่อปกป้องและตรวจสอบโครงสร้างพื้นฐานที่ สำคัญระดับประเทศ เช่น ไฟฟ้า ประปา โทรศัพท์ ห้องปฏิบัติการของกระทรวงพลังงานสหรัฐอเมริกาเป็นลูกค้าสำคัญของ TerraEchos ในการใช้เทคโนโลยีเพื่อตรวจสอบ จำแนกตำแหน่ง และติดตามภัยคุกคาม ซึ่งต้องอาศัยเซ็นเซอร์ ซอฟต์แวร์การวิเคราะห์ และ high-performance computing ในการวิเคราะห์ข้อมูลทั้งหมดในแต่ละช่วงเวลา จากการเคลื่อนไหวของมนุษย์และสัตว์ไปจนถึงสภาพบรรยากาศ

ตั้งแต่ปี ค.ศ. 1959 NASA’s Johnson Space Center รวบรวมข้อมูลภาพนิ่งมากกว่า 4 ล้านภาพ ฟิล์ม 16 มม. ความยาว 9.5 ล้าน วิดีทัศน์ 85,000 ม้วน และแฟ้มข้อมูลที่เป็นตัวแทน 81,616 ชั่วโมงของวิดีทัศน์ในรูปแบบอนาลอกและดิจิทัล ข้อมูลเหล่านี้ถูกใช้เป็นสื่อสาระดิจิทัลเพื่อการสืบค้นทางวิทยาศาสตร์และ วิศวกรรมศาสตร์ NASA ได้สร้างโปรแกรมที่ชื่อว่า Imagery Online ซึ่งเชื่อมโยงแฟ้มข้อมูลภาพไปยังเมทาดาทาที่เกี่ยวข้องของสาระเหล่านี้ แต่ก็ยังมีปัญหาที่ต้องเผชิญในการให้บริการข้อมูลออกสู่สาธารณะทั้งในรูปแบบ ต้นฉบับ (native form) และการลดขนาด เพื่อให้เข้าถึงได้ง่ายขึ้น

ที่มา: Olavsrud, Thor. 2012.  8 real-world big data deployments. http://www.infoworld.com/slideshow/73627/8-real-world-big-data-deployments-206796 เข้าถึงเมื่อ 13-12-2555

สั้นๆ กับ Big Data

คำว่า Big data กลายเป็นคำที่มาแรงในตอนนี้ แต่เมื่อ 70 ปีกว่ามาแล้ว ได้มีคำที่แสดงถึงจำนวนหรือกลุ่มของข้อมูลเกิดขึ้นและเป็นที่รู้จักกันในคำ ว่า “Information explosion” ภาษาไทยมีการแปลว่า “การทะลักทะลายของสารสนเทศ”  คุณ Gil Press ได้สรุปประวัติและพัฒนาการของขนาดของข้อมูล มาให้อ่าน เริ่มตั้งแต่ปี ค.ศ. 1944 จนถึงปี 2012 ที่ Danah Boyd และ Kate Crawford เขียนเรื่อง “Critical Questions for Big Data” ลงใน Information, Communications, and Society ขึ้นมา น่าสนใจเลยส่ง link (http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/) มาให้อ่านกันค่ะ

5 เทคโนโลยีในอนาคตที่น่าจับตามองในปี 2013

IEEE Computer Society ได้พูดถึงเทคโนโลยีที่ควรจับตามองในปี 2013 ไว้ดังนี้

1. Internet of Things (IoT) จะมีการใช้งานที่เป็นจริงมากยิ่งขึ้น
2. การใช้ภาพและเทคโนโลยีในการวิเคราะห์ข้อมูลช่วยแก้ปัญหาความท้าทายของ Big Data
3. เทคโนโลยี Cloud computing (Hybrid clouds และ personal clouds)
4. การควบคุมตรวจสอบอินเทอร์เน็ตจะเพิ่มมากขึ้น
5. การพัฒนาเครื่องมือและวิธีการในการเพิ่มพลังให้กับคอมพิวเตอร์ที่มีหลายหน่วยประมวลผล (multicore computing) Continue reading