library management & Higher Education blog

عن مدونة نسيج

تهدف مدونة نسيج الى توفير مساحات تشاركيه تتسع لكل المتخصصين والمهتمين بكل ما هو جديد في مجال المكتبات والتعليم العالي والتعلم عن بعد وتقنيات المعلومات والاتصالات وتقنيات الأرشفة وحلول المعرفة المتقدمة في التعليم العالي، المكتبات، ومراكز الأبحاث.

سجل بريدك الالكتروني هنـا لتصلك أحدث التدوينات

أكاديمية نسـيج على الفيسبوك

 
 

مقــالات حديثة

الدور الحيوي للمكتبات والمستودعات البحثية في إدارة البيانات الضخمة: الجزء الأول

نُـشر بواسطة هيام حايك on 13/01/2018 12:36:00 ص

 

bigdata-1320x743.jpgالازدهار في عالم يعتمد على البيانات يعني أن تكون قادرا على تطبيق الأدوات المناسبة بسرعة للحصول على ميزة تنافسية أو كفاءة تنظيمية. ومما لا شك فيه أن الانفجار الأخير للبيانات الرقمية فتح أفاقاً جديدة أمام الباحثين والمديرون والقادة في المؤسسات بمختلف أنواعها، حيث أصبح بإمكانهم اتخاذ القرارات بناء على المعلومات التي كانت نتاج العمل على كم هائل من البيانات الضخمة التي تمتلكها المؤسسات، والتي تمكنهم من متابعة العمل وقياس الأداء في كل مرحلة من مراحل العمل وإداراته بالشكل الأفضل.فالتزايد الهائل للبيانات الرقمية التي يتم تحليلها يتيح للمديرين قياس ومعرفة المزيد عن أعمالهم بشكل جذري، والتي يمكن أن تنعكس بعد ذلك في صورة منتجات محسنة أو جديدة تماما. لذا كان من الأهمية أن يكون المديرون قادرين على فهم مخرجات البيانات التي بين أيديهم وتقييمها، والتي يقدمها لهم الباحثون وخبراء البيانات الضخمة. من جهة أخري يجب أن يكون لدى قادة البيانات فهم قوي لبياناتهم وما الذي يمكن أن تمثله هذه البيانات. ويجب أن يكونوا قادرين على توجيه جهات متعددة، قد تشمل علماء البيانات والمحللين الذين يمكن أن يفهموا البيانات، ورجال الأعمال الذين يمكنهم من خلال البيانات تأطير المشاكل التي تحتاج إلى حل، والعاملين في مجال تقنية المعلومات الذين يمكنهم أن يهيئوا البيئات للعمل.

المكتبات شريك في إدارة البيانات الضخمة

من المعروف أن العلماء والباحثين هم القادة الذين يحدثون التغيير وهم المسئولين عن التطور المستمر لشكل الأعمال وحجمها وطرق تقديمها، للتمكن في نهاية المطاف من توفير تجربة أفضل للعملاء. في عصر "البيانات الضخمة "، يكافح الباحثون والعلماء بشكل متزايد من أجل التمكن من إدارة وتنظيم ومعرفة الكم الهائل من البيانات. وفي هذا السياق يمكن أن يكون العاملون في مجال المكتبات والمعلومات والذين يمتلكون الخبرة في إدارة المعرفة، مصدرا غنيا للباحثين الذين يواجهون هذه التحديات. حيث هناك الكثير من الفرص التي لا تعد ولا تحصى لأمناء المكتبات وغيرهم من المتخصصين في مجال المعلومات للمشاركة مع الباحثين وتقديم دعم قيم لإدارة البيانات البحثية وتحليلها والحفاظ عليها.

فعلى مدار تاريخ طويل، كان هناك الكثير من التقاطعات بين المكتبات والجامعات ومعاهد البحوث والجمهور؛ حيث أن المكتبات تقوم بتخزين الأصول الرقمية وإدارتها. كما تقوم العديد من المكتبات بتحويل الكمية الكبيرة من البيانات الموجودة في المكتبة إلى معلومات أو معارف يستخدمها الباحثون بعد ذلك. وفي هذا السياق قد يحتاج أمناء المكتبات إلى فهم كيفية تحويل البيانات وتحليلها وعرضها من أجل تسهيل خلق المعرفة.

هذا وقد تحولت أساليب البحث العلمي بشكل أساسي في العقود القليلة الماضية. فغالبا ما يعتمد الباحثون في القرن الحادي والعشرين على مجموعات البيانات الرقمية الضخمة، وأحيانا يستخدمون البيانات التي لم يجمعوها، والتي يمكن أن يكونوا قد حصلوا عليها من مصادر عامة لإعادة استخدامها. كما يجب على الباحثين في العديد من المجالات الامتثال لسياسات جديدة من قبل الممولين والمجلات والناشرين، والتي تطلب منهم تبادل البيانات الخاصة بهم أو كتابة خطط إدارة البيانات، إضافة إلى العديد من الإجراءات التي لم يكن معظم الباحثين يقومون بها في الماضي. ونتيجة لذلك، قد يجد الباحثون أنهم بحاجة إلى مهارات ومعرفة جديدة للعمل بأقصى قدر من الفعالية والاستفادة من الفرص الجديدة التي يوفرها هذا العصر القائم على البيانات.

في مواجهة هذا المشهد البحثي السريع التطور، كيف يمكن للباحثين البحث عن المساعدة مع احتياجاتهم الناشئة؟ في كثير من الحالات، يمكن لأمناء المكتبات وأخصائي المعلومات مساعدة الباحثين الذين يحتاجون إلى إرشادات بشأن العديد من الجوانب المختلفة للعمل مع البيانات. وبالنظر إلى خبرة العاملين في مجال المكتبات في إدارة المعرفة وأساليب البحث، فإن أمناء المكتبات في موقع يؤهلهم ليس لتقديم التوجيه فحسب، بل والتعاون مع فرق البحث في مختلف جوانب إدارة البيانات وعلوم البيانات. تتناول هذه التدوينة كيف تطور البحث في عصر البيانات الضخمة وكيف يمكن لأمناء المكتبات وغيرهم من المهنيين العاملين في مجال المعلومات أن يستجيبوا لاحتياجات الباحثين الناشئة وأن يكونوا شركاء لهم.

عصر البيانات الضخمة

مصطلح "البيانات الضخمة" لَهُ صَدىً وَاسِعٌ في المناقشات المتعلقة بإدارة البيانات البحثية، ولكن ما الذي يجعل البيانات كبيرة؟ ما حجم البيانات التي يجب اعتبارها بيانات كبيرة؟ والأهم من ذلك، كيف تختلف "البيانات الضخمة" عن "البيانات الصغيرة"؟، ولماذا هي مسألة مختلفة بالنسبة للباحثين عن غيرهم ممن يعملون مع إدارة البيانات البحثية؟

ولكن بدايةً لابد أن نشير إلى أن البيانات الضخمة أصبحت واقعا نعيشه، حتى أن قاموس أوكسفورد اعتمد المصطلح وأضافه إلى مفرداته، وأحد التعريفات المفيدة يتضمن أربعة أبعاد تطبع البيانات الضخمة: الحجم والسرعة والتنوع والمصداقية. بالنسبة للحجم فلا توجد قيمة محددة واحدة تحدد البيانات الضخمة من البيانات الصغيرة، غير أن مصطلح البيانات الضخمة يطبق عموما على مجموعات بيانات كبيرة بما فيه الكفاية بحيث لا يمكن استخدام تقنيات معالجة البيانات التقليدية للعمل عليها أو تخزينها. عرف معهد ماكنزي العالمي سنة 2011 البيانات الضخمة أنها أي مجموعة من البيانات بحجم يفوق قدرة أدوات قواعد البيانات التقليدية من التقاط تلك البيانات وتخزينها وإدارتها وتحليلها. بالنسبة للسرعة فيتم توليد البيانات كل يوم، بمعدل لم يسبق له مثيل... تقول IBM إننا ننتج2.5 كوينتيليون بايت من البيانات كل يوم (الكوينتيليون هو الرقم واحد متبوعاً بـ 18 صفراً). كما يشير التنوع إلى العديد من أنواع البيانات المختلفة التي قد تتضمن مجموعة بيانات. حيث قد تحتوي مجموعة بيانات واحدة على مجموعة واسعة من البيانات، بما في ذلك الصور والصوت والفيديو والنص المجاني والبيانات المنظمة وغير ذلك الكثير. وأخيرا، يتم التعبير عن المصداقية في التأكيد على أهمية ضمان موثوقية وسلامة البيانات. وخاصة مع تزايد المخاوف بشأن المساءلة البحثية والشفافية في أعقاب العديد من الحالات البارزة من البحوث غير القابلة لإعادة الإنتاج، كما أن تقاسم البيانات وإعادة استخدامها أصبح أكثر شيوعا، لذا من المهم أكثر من أي وقت مضى أن تكون البيانات خالية من الأخطاء وأن تكون دقيقة.

نمو ظاهرة البيانات الضخمة

إن نمو البيانات بشكل عام، وبحوث البحث العلمي على وجه الخصوص، كان مدفوعا بعدد من العوامل الاجتماعية والتقنية. فقد مكنت التقنيات الجديدة من جمع البيانات بسرعة أكبر وبتكلفة زهيدة أكثر من أي وقت مضى. على سبيل المثال تسلسل مسار علم الجينوم سبب زيادة هائلة في البيانات المتاحة. حيث أن مشروع الجينوم البشري الأول في عام 2003؛ استغرق حوالي عشر سنوات وتكلف حوالي 2.7 مليار دولار. الآن وبعد أقل من خمسة عشر عاما، يمكننا أن نقوم بنفس العمل في غضون ستة وعشرين ساعة فقط، وبتكلفة في حدود 1000$. إن الانخفاضات الهائلة في تسلسل السعر والوقت مثيرة للإعجاب في حد ذاتها، وهي أقل بكثير مما يمكن توقعه باستخدام الافتراضات الواردة في قانون مور، وخاصة منذ عام 2008

 DOJSzgwVwAEJ9MS.jpg

 لا يمكننا فقط توليد البيانات بسرعة وبتكلفة زهيدة أكثر من أي وقت مضى، ولكن يمكننا أيضا تحمل تكاليف تخزينها، فقد انخفضت تكاليف تخزين البيانات بشكل كبير في السنوات الأخيرة. حلول التخزين السحابية تجعل من السهل تخزين كميات غير مسبوقة من البيانات وبتكلفة معقولة.

وقد أدت التقنيات الجديدة أيضا إلى زيادة في كمية البيانات "المواد الرقمية" - وهي مواد تم إنشاؤها أصلا في شكل رقمي، بدلا من تلك التي يتم إنشاؤها كبيانات تناظرية وبعد ذلك رقمية. على سبيل المثال، يعني الاعتماد الواسع النطاق للسجلات الصحية الإلكترونية الوصول بشكل متزايد إلى ثروة من بيانات المرضى التي كان من الصعب استخدامها مرة واحدة لأنها تجلس في ملفات ورقية مكتوبة بخط اليد في مكاتب الأطباء

وهناك أنواع جديدة من البيانات الناشئة عبر شبكة الإنترنت، مثل بيانات وسائل الإعلام الاجتماعي، والتي توفر إمكانات البحث، حيث استخدم الباحثون مواقع التواصل الاجتماعي مثل تويتر والفيسبوك لأغراض بحثية غير متوقعة.

مستودعات البيانات الضخمة

نحن لا نعيش في عصر البيانات الضخمة وحسب، ولكن الكثير من تلك البيانات متاحة بحرية وعلى نطاق واسع. حتى كتابة هذه السطور، سجلت مستودعات البيانات البحثية (re3data) أكثر من خمسمائة مستودع يوفر الوصول إلى مجموعة متنوعة من أنواع مختلفة من البيانات، ومعظمها مع وصول غير مقيد. الباحثون الذين يرغبون في تبادل البيانات الخاصة بهم لديها الآن العديد من الخيارات للقيام بذلك. وهناك مجموعة واسعة من المستودعات الخاصة بالموضوع تجعل من السهل على الباحثين تحديد البيانات التي ستكون ذات صلة بهم أو العثور على موقع للبيانات التي يرغبون في مشاركتها. وتتراوح نطاقات المستودعات هذه من نطاق واسع جدا (مثل DataONE، الذي يستضيف بيانات الأرض والبيئة بشكل عام، إلى محدد جدا (مثل Mouse Genome Informatics والتي تستقبل كما هو واضح في اسمها، البيانات المتعلقة بجينوم الفأر

تستضيف بعض الجامعات والمؤسسات البحثية مستودعات البيانات نيابة عن باحثيها، مثل مستودع DRUM التابع لجامعة مينيسوتا وفي كثير من الأحيان، تدار هذه المستودعات المؤسسية تحت رعاية (أو على الأقل بمشاركة) مكتبة الجامعة. المستودعات العامة مثل DRUM وDryad الخاصة بالملخصات، ولها قيود قليلة على تنسيقات البيانات، والمعايير، أو النطاق. هذه المستودعات كثيرة، مع مختلف مجالاتها وتركيزها، توفر فرصة الوصول السهل إلى ثروة من البيانات

 إن الكم الهائل من البيانات المتوفرة بالفعل في هذه المستودعات يدل على أن العديد من الباحثين منفتحون على تبادل بياناتهم، على الرغم من أن الأبحاث أظهرت أن رغبة الباحثين في تبادل بياناتهم قد تختلف اختلافا كبيرا تبعا لمجموعة متنوعة من العوامل، بما في ذلك مجال أبحاثهم، وسنوات الخبرة في المجال، ونوع التمويل. ومع ذلك، وبغض النظر عما إذا كان الباحث يشعر بأريحية لمشاركة بياناته أم لا، فإن معظم الباحثين سوف يطلب منهم قريبا القيام بذلك. وقد اعتمدت العديد من المجلات الكبرى، بما في ذلك مجلات الطبيعة، ومجلات العلوم سياسات تبادل البيانات؛ وعادة تتطلب هذه السياسات أن تكون البيانات المتعلقة بالمقالة متاحة للجمهور في وقت نشر المقال.

 في هذا الجزء من التدوينة تم استعراض سريع لطبيعة البيانات الضخمة والمستودعات البحثية، في الجزء الثاني سيكون التركيز الأكثر على دور المكتبات في مساعدة الباحثين  في  عصر البيانات الضخمة.

#البيانات_الضخمة ، #المستودعات_البحثية  ، #البيانات_الكبيرة   #البيانات