เอกสารที่เป็นกระดาษยังคงเป็นบันทึกของอดีตที่ฝากถอนไม่มีขั้นต่ำ เว็บตรงประเมินค่าไม่ได้ แม้แต่ในโลกดิจิทัล แหล่งข้อมูลหลักที่จัดเก็บไว้ในจดหมายเหตุท้องถิ่นทั่วละตินอเมริกา เช่น กล่าวถึงสังคมที่มีความหลากหลายทางชาติพันธุ์ที่มีอายุหลายศตวรรษซึ่งกำลังต่อสู้กับคำถามเกี่ยวกับเชื้อชาติ ชนชั้น และศาสนา
อย่างไรก็ตาม เอกสารที่เป็นกระดาษมีความเสี่ยงต่อน้ำท่วม ความชื้น แมลง และสัตว์ฟันแทะ ท่ามกลางภัยคุกคามอื่นๆ ความไม่มั่นคงทางการเมืองสามารถตัดเงินที่ใช้ในการรักษาเอกสารสำคัญและการละเลยสถาบันสามารถเปลี่ยนบันทึกที่มีค่าเป็นขยะมูลฝอย
ฉันทำงานอย่างใกล้ชิดกับเพื่อนร่วมงานจากทั่วโลก ฉันสร้างคลังข้อมูลดิจิทัลและเครื่องมือพิเศษที่ช่วยให้เราเรียนรู้จากบันทึกเหล่านั้น ซึ่งติดตามชีวิตของผู้คนที่เป็นอิสระและเป็นทาสของเชื้อสายแอฟริกันในอเมริกาตั้งแต่ช่วงทศวรรษที่ 1500 ถึงปี 1800 ความพยายามของเรา นั่นคือSlave Societies Digital Archiveเป็นหนึ่งในโครงการด้านมนุษยศาสตร์หลายโครงการที่ได้รวบรวมคอลเลกชันรูปภาพดิจิทัลของเอกสารกระดาษจำนวนมาก
เป้าหมายคือเพื่อให้แน่ใจว่าข้อมูลนี้ – รวมถึงเอกสารบางส่วนจากเอกสารที่ไม่มีอยู่จริง – สามารถเข้าถึงได้สำหรับคนรุ่นอนาคต
แต่การรักษาประวัติศาสตร์ด้วยการถ่ายภาพความละเอียดสูงของเอกสารอายุหลายศตวรรษเป็นเพียงจุดเริ่มต้นเท่านั้น ความก้าวหน้าทางเทคโนโลยีช่วยให้นักวิชาการและนักเก็บเอกสารเช่นฉันรักษาบันทึกเหล่านี้และเรียนรู้จากบันทึกเหล่านี้ได้ดีขึ้น แต่อย่าทำให้ง่ายเสมอไป
รวบรวมเอกสาร
ตั้งแต่ปี พ.ศ. 2546 คลังข้อมูลดิจิทัลของ Slave Societies ได้รวบรวมภาพดิจิทัลกว่า 700,000 ภาพในบันทึกประวัติศาสตร์ที่บันทึกชีวิตของชาวแอฟริกันหลายล้านคนและคนเชื้อสายแอฟริกันในอเมริกาเหนือและใต้
สมาชิกของทีมหลักจากมหาวิทยาลัยในสหรัฐอเมริกา แคนาดา และบราซิล เดินทางไปที่ไซต์โครงการทั่วละตินอเมริกา ซึ่งพวกเขาฝึกอบรมนักเรียนในท้องถิ่นและนักเก็บเอกสารสำคัญเพื่อแปลงบันทึกของคณะสงฆ์และรัฐบาลจากชุมชนของตนให้เป็นดิจิทัล เราให้กล้อง คอมพิวเตอร์ และฮาร์ดแวร์อื่นๆ แก่ชุมชนเหล่านี้เพื่อเก็บรักษาเอกสารแบบดิจิทัลที่กองอยู่ที่มุมห้องใต้ดินของโบสถ์สมัยศตวรรษที่ 18 หรือกำลังจะถูกทิ้งโดยเอกสารสำคัญของเทศบาลที่มีพื้นที่รกร้างว่างเปล่า
นอกจากนี้เรายังสอนทักษะที่สำคัญสำหรับการจัดเก็บและดึงข้อมูลแก่พวกเขา: วิธีสร้างข้อมูลเมตา ข้อมูลเชิงพรรณนาเพื่อช่วยให้ผู้คนค้นหาสิ่งที่พวกเขาสนใจ เช่น เอกสารเป็นทะเบียนสมรสหรือบันทึกบัพติศมา และมาจากปีและเมืองใด ข้อมูลเมตาที่ดีช่วยให้ผู้เยี่ยมชมเว็บไซต์ของโครงการสามารถค้นหาบันทึกการรับบัพติศมาทั้งหมดจากโคลอมเบียในศตวรรษที่ 17 ได้
จากการแปลงเป็นดิจิทัลสู่การเก็บรักษา
เมื่อเวลาผ่านไป เราก็สามารถแปลงเอกสารเป็นดิจิทัลได้ดีขึ้นมาก ในภาพเก่า ไม่ใช่เรื่องแปลกที่จะเห็นนิ้วของช่างภาพเล็ดลอดเข้ามาจากด้านข้างของเฟรม รูปภาพที่เก่ากว่าบางรูปจะถูกจัดเก็บเป็นไฟล์ JPEG ที่มีความละเอียดต่ำ ซึ่งเป็นรูปแบบที่บีบอัดขนาดไฟล์รูปภาพโดยการลบข้อมูลบางส่วนเมื่อบันทึก ไฟล์เหล่านี้ส่วนใหญ่ยังคงอ่านออกได้อย่างสมบูรณ์แม้ว่าผู้ดูจะซูมเข้า แต่บางไฟล์อาจอ่านไม่ออกและจะต้องแปลงเป็นดิจิทัลอีกครั้งในอนาคต
การเก็บรักษาครั้งล่าสุดของเราเป็นไปตามมาตรฐานที่เข้มงวดของBritish Libraryซึ่งให้ทุนแก่งานของเรามาก ภาพเหล่านั้นถ่ายด้วยความละเอียดสูงมากและจัดเก็บไว้ในรูปแบบไฟล์ต่างๆ รวมถึงTIFFซึ่งยังคงเป็นมาตรฐานในการเก็บถาวร
การเปลี่ยนคอลเลกชั่นรูปภาพดิจิทัลเป็นไฟล์ดิจิทัลที่แท้จริงนั้นใช้เวลานานและต้องใช้ความพยายามในรายละเอียด ในตอนต้นของกระบวนการนี้ เราพบปัญหาที่น่าสงสัยเกี่ยวกับภาพถ่ายที่ถ่ายระหว่างความพยายามแปลงเป็นดิจิทัลสองสามครั้งแรกของเรา ซอฟต์แวร์สมัยใหม่มักตีความการวางแนวของภาพผิด ทำให้หน้าของเราหมุนไปทางขวาหรือซ้าย 90 องศา หรือแม้กระทั่งกลับหัวกลับหางทั้งหมด ในกรณีที่ไดรฟ์ข้อมูลทั้งหมดถูกหมุนในลักษณะที่ไม่ถูกต้องเหมือนกัน สามารถแก้ไขได้โดยอัตโนมัติ แต่ส่วนอื่นๆ ที่มีข้อผิดพลาดหลายช่วงต้องแก้ไขด้วยมือเพื่อให้นักวิจัยทำงานกับเนื้อหาได้ง่ายขึ้น
นอกจากนี้เรายังพบว่าชื่อไฟล์ข้อมูลอาจทำให้เกิดปัญหาได้ กล้องหลายตัวกำหนดชื่อเริ่มต้นของรูปภาพ เช่น DSCN9126.jpg ซึ่งไม่มีประโยชน์ในการค้นหาว่ารูปภาพคืออะไร เราต้องเปลี่ยนชื่อแต่ละภาพด้วยวิธีมาตรฐานที่ระบุว่ามันเข้ากับคอลเล็กชันของเราอย่างไร
ในขณะนี้ เราได้เลือกเพียงเพื่อกำหนดหมายเลขรูปภาพตามลำดับภายในแต่ละเล่ม อีกทางเลือกหนึ่งที่สมเหตุสมผลคือเติมคำนำหน้าตัวเลขเหล่านี้ด้วย ID ที่อ้างอิงถึงปริมาณของรูปภาพ
สิ่งเหล่านี้ไม่ใช่อุปสรรคสำคัญ แต่พวกเขาและคนอื่น ๆ ในแนวเดียวกันใช้เวลาในการคิดและจัดการอย่างเหมาะสม แต่ความพยายามนี้จะได้ผลเมื่อผู้ที่หวังจะสำรวจคอลเล็กชันสามารถค้นหาและใช้ภาพของเราได้ง่ายขึ้น
จะเก็บไว้ที่ไหน?
เมื่อเราจับภาพได้แล้ว เราจำเป็นต้องบันทึกมันไว้ที่ใดที่หนึ่ง
ปัจจุบัน คอลเลกชั่น Slave Societies Digital Archive มีขนาดเกือบ 20 เทราไบต์ซึ่งเป็นพื้นที่โดยประมาณที่จำเป็นในการจัดเก็บข้อความทั้งหมดในหอสมุดรัฐสภา
มีสถาบันเพียงไม่กี่แห่งที่มีทรัพยากร บุคลากร หรือความเชี่ยวชาญที่จำเป็นในการจัดเก็บข้อมูลด้านมนุษยศาสตร์ในวงกว้างเช่นนี้ การจัดเก็บข้อมูลไม่ได้แพงเกินไป แต่ก็ไม่ถูกเช่นกัน โดยเฉพาะอย่างยิ่งเมื่อจำเป็นต้องเข้าถึงข้อมูลเป็นประจำ แทนที่จะเก็บไว้ในการสำรองข้อมูลแบบสแตติกหรือสำเนาเก็บถาวร
หลายปีที่ผ่านมา Vanderbilt University Library โฮสต์ข้อมูล แต่เราเติบโตเกินกว่าที่องค์กรนั้นสามารถจ่ายได้ เราได้สำรองข้อมูลบันทึกที่สำคัญที่สุดของเราไว้ใน Digital Preservation Network ซึ่งเป็นสมาคมของมหาวิทยาลัยที่รวบรวมทรัพยากรต่างๆ เพื่อเป็นทุนให้กับระบบจัดเก็บข้อมูลดิจิทัลที่เชื่อถือได้สำหรับการผลิตทางวิชาการ แต่องค์กรนั้นปิดตัวลงในปลายปี 2561หลังจากปรึกษากับแต่ละองค์กรสมาชิกเพื่อให้แน่ใจว่าข้อมูลจะไม่สูญหาย
เส้นทางของเรานำไปสู่ระบบคลาวด์คอมพิวเตอร์ในอาคารคลังสินค้าเซิร์ฟเวอร์ขนาดใหญ่ของบริษัทเทคโนโลยี ซึ่งเราเข้าถึงจากระยะไกลเพื่อจัดเก็บและเรียกข้อมูล ในขณะนี้ ชุดข้อมูลทั้งหมดของเราหลายชุดถูกจัดเก็บไว้ในเซิร์ฟเวอร์ที่อยู่ฝั่งตรงข้ามของอเมริกาเหนือ ด้วยเหตุนี้ เราจึงมีโอกาสสูญเสียข้อมูลน้อยกว่าครั้งก่อนๆ ในประวัติศาสตร์ของโปรเจ็กต์
เปิดการเข้าถึง
การจัดเก็บบันทึกเหล่านี้ในระบบที่ปลอดภัยเป็นอีกส่วนหนึ่งของสมการ แต่เราต้องตรวจสอบให้แน่ใจด้วยว่าบุคคลที่ต้องการดูสามารถเข้าถึงบันทึกเหล่านี้ได้
เอกสารของเราซึ่งโดยทั่วไปแล้วเขียนเป็นภาษาสเปนหรือโปรตุเกสโบราณนั้นอ่านยากมาก แม้แต่เจ้าของภาษาก็ยังต้องการการฝึกอบรมพิเศษเพื่อถอดรหัสสิ่งที่พวกเขาพูด
เป็นเวลาหลายปีแล้วที่เราทำสำเนาบันทึกที่น่าสังเกตที่สุดบางส่วนของเราด้วยตนเอง เช่น ปริมาณบัพติศมาจากฮาวานาช่วงปลายศตวรรษที่ 16 แต่นั่นใช้เวลา 10 ถึง 15 นาทีต่อหน้า ซึ่งหมายความว่าการถอดความคอลเล็กชันทั้งหมดของเราจะใช้เวลามากกว่า 100,000 ชั่วโมง
โครงการอื่นๆ ได้ใช้อาสาสมัครในการทำงานที่คล้ายกันแต่แนวทางดังกล่าวมีโอกาสน้อยที่จะเป็นวิธีแก้ปัญหาสำหรับเอกสารสำคัญของเรา เนื่องจากทักษะทางภาษาที่จำเป็นในการอ่านเอกสารของเรา
เรากำลังสำรวจกระบวนการถอดความอัตโนมัติโดยใช้เทคโนโลยีการรู้จำลายมือ ระบบเหล่านี้ต้องการการทำงานมากขึ้น โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับรูปแบบการเขียนด้วยลายมือที่มีอายุหลายศตวรรษ แต่นักวิจัยบางคนก็มีความคืบหน้าอยู่แล้ว
เรายังมองหาวิธีในการระบุบุคคลและสถานที่ที่กล่าวถึงในบันทึกของเรา ทำให้สามารถค้นหาได้และเชื่อมโยงพวกเขากับชุดข้อมูลอื่นๆ ที่คล้ายคลึงกัน
ขณะที่เราและนักวิจัยคนอื่นๆ เชื่อมโยงงานของเรา เรื่องราวในเอกสารเก่าเหล่านี้จะมีชีวิตขึ้นมาและนำความรู้ใหม่มาสู่นักวิชาการสมัยใหม่ฝากถอนไม่มีขั้นต่ำ เว็บตรง