عن مدونة نسيج

تهدف مدونة نسيج الى توفير مساحات تشاركيه تتسع لكل المتخصصين والمهتمين بكل ما هو جديد في مجال المكتبات والتعليم العالي والتعلم عن بعد وتقنيات المعلومات والاتصالات وتقنيات الأرشفة وحلول المعرفة المتقدمة في التعليم العالي، المكتبات، ومراكز الأبحاث.

سجل بريدك الالكتروني هنـا لتصلك أحدث التدوينات

أكاديمية نسـيج على الفيسبوك

 
 

مقــالات حديثة

التنقيب عن البيانات في المكتبات الأكاديمية باستخدام خوارزمية K-means

نُـشر بواسطة هيام حايك on 16/09/2018 07:48:20 ص

 

Data_Mining_Definition_and_Techniques

هل يحقق التقاء الحوسبة السحابية والبيانات الكبيرة الكوكب الأذكى SMARTER PLANET؟

كان هذا عنوان لتدوينة قمنا بنشرها في عام 2014، واليوم نعيد السؤال ثانية بشأن الكوكب الذكي، وحقيقة وجوده!!

على الأرجح أغلب الأشياء تذهب بسرعة كبيرة تجاه كل ما هو ذكي، فهناك المدينة الذكية والبيت الذكي وهناك أيضا المكتبة الذكية Smart Library  والتي يميزها الذكاء في التعامل مع البيانات الكبيرة التي أصبحت سمة مميزة في عصرنا، حيث أن تطور تقنية الحوسبة السحابية زاد من حجم البيانات وفتح المجال أمام بداية عصر البيانات الضخمة، حيث البيانات تأتيك من حيث لم يخطر علىبالك يوميا،،، ويوما بعد يوم تتكدس البيانات، السؤال المطروح هنا، ما مدى حاجتنا إلى كل هذه البيانات وهل كل هذه البيانات مفيدة وقيمة،،، عند الوصول إلى هذا السؤال، تتضح لنا أهمية استخدام تقنيات التنقيب عن المعلومات واستغلالها من قبل الصناعات المختلفة من أجل تحسين كفاءة العمل، في هذا السياق يتم تطوير تقنية تنقيب البيانات الكبيرة. في المكتبات في الجامعات والكليات، حيث أنها تمثل قطاعات مهمة لجمع المعرفة وتراكم الإنجاز الأكاديمي. ومع تغير وظائف المكتبات في الجامعات والكليات تدريجياً، لم تعد وظائف المكتبات قاصرة على تقديم الخدمات للقراء فحسب، بل نجدها تتحول لتصبح أيضًا قاعدة المعرفة لإدارة الجامعات والكليات لاتخاذ القرارات الصحيحة من أجل التطوير الأفضل.

نظرة عامة على تقنية التنقيب عن البيانات في المكتبات الجامعية

يعد التنقيب عن البيانات عملية متطورة تقوم باشتقاق البيانات المطلوبة والفعالة والشاملة من كم هائل من البيانات طبقا لأهداف مسبقة، ويعد البعض التنقيب عن البيانات مصطلحا شائعا في مجال اكتشاف المعرفة، حيث يضع البعض التنقيب عن البيانات كخطوات أساسية في عملية اكتشاف المعرفة. فيمكن القول إن التنقيب عن البيانات هي اكتشاف المعرفة من البيانات هي عملية تحليل البيانات من منظورات مختلفة واستخلاص عالقات بينها وتلخيصها إلى معلومات مفيدة،

تهتم المكتبات الأكاديمية بنظم إدارة المكتبات، والكثير من المعلومات الخاصة بالكتب والمواد المكتبية الأخرى التي يهتم بها القراء ويتم تسجيل كل هذه المعلومات، ونري الاهتمام الكامل بالتفاصيل، لما يعود من ذلك من معرفة غنية ومفيدة وراء هذا المعلومات، والتي هي ذات قيمة كبيرة لصنع القرار في المكتبات الجامعية.

ومع ذلك في الوقت الحاضر تفتقر معظم المكتبات إلى تكامل البيانات وتحليلها والتي لا تتعدي أكثر من تعميم وكشف ضمني الارتباط في البيانات الإحصائية، مما يجعل من التقاط معلومات القراء تنحصر في مستويات بسيطة. نحاول هنا البحث في الإمكانيات التي تتيحها عملية التنقيب البيانات وكيف يمكنها تحسين مستوى الخدمة في المكتبات الجامعية .

 التنقيب عن البيانات في المكتبات الجامعية

يلعب التنقيب عن البيانات دورا أساسيا في المكتبات، ويمكن للتنقيب عن البيانات حل كثير من المشاكل وصنع قرارات حكيمة.

 تم استخدم مصطلح التنقيب عن البيانات في مجال المكتبات والمعلومات للمرة الأولي في عام 1773م، وقد صاغ سكوت نيكلسون مصطلح bibliomining من أجل استخدام التنقيب عن البيانات لفحص سجلات بيانات المكتبة من أجل المساعدة في اتخاذ القرارات التنظيمية داخل المكتبة أو تحسين خدمات المكتبات أو التقارير والتبرير لجهات خارجية ويهتم "التنقيب الببليوغرافي Bibliomining بتطبيق الأدوات الإحصائية و إعادة رؤية للبيانات من منظور مختلف لتحقيق قيمة مضافة"

يمكن للمكنبات استخدام البيانات لتصنيف المستفيدين إلى مجموعات وإيجاد الخصائص المشتركة للمستفيدين و العمل على دراسة رغباتهم المستقبلية، وتقديم خدمات كافية وخدمات تلبي رغباتهم . كما يمكن معرفة أوجه القصور في مقتنيـات المكتبـة من خلال اسـتخدام خوارزميات التنقـيب عن البيانات والحصول على أنماط معرفيـة جديدة ودقيقـة لم تكـن معروفـة من قبل؛ توضح الخلل في مقتنيات المكتبة، مما يهيئ أمام متخـذي القرار الفرصـة لتقييم مقتنياتهم بشكل أكثر منطقية، ومن ثم اتخاذ القرار الأنسب. والحد من تكرار المقتنيات، حيث يمكن للتحليل الدقيق والذكي لمقتنيات المكتبة ومن خلال استخدام الآليات المختلفة للتنقيب عن البيانات استنباط أنماط معرفية تمكن من وجود علاقات ترتبط ببعضها البعض والتي لم تكن واضحة من ذي قبـل أمـام المسئولين ومتخـذي القـرار . يمكن تصنيف تطبيقات التنقيب عن البيانات إلى مجال علوم المعلومات في ثلاث فئات رئيسية من البيئات الشخصية، والتجارة الإلكترونية ومحركات البحث..

وفقا لما يري W. J. Frawley لا يزال استخراج البيانات مجالا ناشطا ومتعدد التخصصات. وهو يري أن التنقيب عن البيانات، يتم من خلال العمل على ثلاث خطوات رئيسية، بما في ذلك إعداد البيانات وتحليل الخوارزميات واستخلاص البيانات

 لماذا نستخدم التجميع العنقودي Clustering لتحليل بيانات المكتبة

sphx_glr_plot_cluster_comparison_0011

تخيل أنك لا تعرف شيء عن المكتبات وطبيعة القراء وعاداتهم القرائية وحجم الإعارة والخدمات التي تقدمها المكتبات، وتم إعطائك مجموعة كبيرة من البيانات Big Data عن المواد التي تحتوي عليها المكتبة الخاصة بالجامعة التي تعمل فيها، وكانت هذه البيانات في صورة جدول تتضمن أسماء المستفيدين من خدمات المكتبة، وعدد المواد التي تم استعارتها وعناوينها..الخ

 ومطلوب منك تحليل البيانات ومحاولة إيجاد علاقات منطقية بينها.

كمحلل للبيانات أنت تعرف أن التجميع العنقودي Clustering  والتصنيف Classification، هما من أشهر أساليب تحليل البيانات. من المنطقي في هذه الحالة ألا تحاول استخدام التصنيف، فأنت لا تعرف المواد الموجودة ومواصفات كل منها، وبالتالي يصبح حتميا استخدام التجميع العنقودي Clustering، وهو عبارة عن تجميع البيانات القريبة من بعضها البعض في مجموعة واحدة (عنقود) Cluster، وإيجاد المتوسط الحسابي لها بحيث تكون النقاط المشمولة في المجموعة أقرب للمتوسط الحسابي للمجموعة الخاصة بها من المتوسط الحسابي لأي مجموعة أخرى. فكرة تجميع البيانات بسيطة في طبيعتها وقريبة جداً من الإنسان في طريقة تفكيره حيث أننا كلما تعاملنا مع كمية كبيرة من البيانات نميل إلى تلخيص الكم الهائل من البيانات إلى عدد قليل من المجموعات أو الفئات، وذلك من اجل تسهيل عمليه التحليل.

تستخدم خوارزميات التجميع على نطاق واسع ليس فقط لتنظيم وتصنيف البيانات. هناك العديد من الخوارزميات المستخدمة في عملية تجميع البيانات، وهنا سوف نركز على أبسط خوارزمية، ألا وهي خوارزمية  k-means clustering

التنقيب عن البيانات باستخدام خوارزمية K-means

الخوارزمية هي سلسلة من التعليمات التي يتم تنفيذها حرفيا للوصول إلى الحل المطلوب، بينما العنقدة (التجميع) clustering هي المحتوى الأساسي في تنقيب البيانات بالإضافة إلى أنها طريقة البحث الرئيسية، والتي تساعد على تحديد البنية الداخلية للبيانات بشكل فعال، حيث يتم تجميع كل الكائنات معًا لتشكيل مجموعات الكائنات باستخدام خوارزمية التجميع. الكائنات في نفس المجموعة تتشابه إلى حد كبير، في حين أن الكائنات من المجموعات المختلفة يكون بينها اختلافات كبيرة. يمكن العثور على خصائص توزيع البيانات بعد اعتماد خوارزمية التجميع.

التجميع Clustering هو نوع من التعلم غير الخاضع للإشراف، وهو يختلف تمامًا عن التصنيف، لأن كل المجموعات غير معروفة قبل التجميع. هناك خمسة أنواع رئيسية من خوارزمية التجميع، بما في ذلك طريقة التصنيف، والطريقة الهرمية، والطريقة المستندة إلى الكثافة، والطريقة المستندة إلى الويب والطريقة المبنية على النموذج.

ومن بين هذه الخوارزميات خوارزمية K-Means Clustering والتي تستخدم لتجميع عدة بيانات (أمثلة) اعتماداً على خصائصها إلى K تجمع، وتتم عمليه التجميع من خلال تقليل المسافات بين البيانات ومركز التجمع العنقودي (cluster centroid). تعتبر عملية تحديد عدد التجمعات K من أهم خطوات هذه الخوارزمية، وهي تعتبر خطوة تهيئة أولية. ومن ثم، يتم تحديد إحداثيات مراكز التجمعات Centroids عشوائياً. وبعد ذلك نقوم بحساب المسافة بين كل مثال وبين جميع المراكز، هذا ويمكن استخدام نتائج الحسابات لإعادة التصنيف وتكرار التكرار حتى تصبح المجموعة مستقرة

 

 

تطبيق K-MEANS ALGORITHM في مكتبات الجامعات والكليات

تعد المكتبات في الجامعات والكليات من الأماكن المهمة للتدريس ودعم عملية التعلم. يبدأ أسلوب خدمة هذه المكتبات بالتغير تدريجياً مع تطوير التفكير والمعرفة ؛ ويتم اقتراح متطلبات أعلى للقيام بمعالجة البيانات مع ازدياد كمية المعلومات في المكتبات باستمرار. وبالرجوع إلى حقيقة أن إدارة المستخدم وتقديم الخدمة هي من الركائز الرئيسية لإدارة المكتبات في الجامعات والكليات ـ فإن تزايد وتنوع الطلب على خدمات المكتبات في ظل عصر البيانات الضخمة، يجعل من المشاكل المتعلقة بإدارة المكتبات وجودة الخدمة بارزة بشكل متزايد. مما يحتم على المكتبات ضرورة الاستجابة لمتطلبات واحتياجات القراء في الوقت المناسب والعمل على توفير خدمات عالية الجودة.ولذلك، فإن الأولوية الأولى للمكتبات هي التعرف على القراء بشكل استباقي، وإجراء تحليل معقول لمطالبهم الفعلية والعمل بشكل مدروس على القضايا والأمور المتعلقة بمتطلباتهم. من الضروري أيضًا أن تقوم المكتبات بإدارة قرائها بفعالية. مما لا شك فيه، أن تقنية استخراج البيانات يمكن أن توفر تقنية أكثر تقدمًا وملاءمة لإدارة أخدمات القراء في المكتبات.

في عصر البيانات الضخمة، يتم تطبيق أشكال مختلفة من استخراج البيانات في مكتبات الجامعات والكليات. خوارزمية K-mean هي، دون شك، طريقة التجميع الأكثر شعبية. أصدر الباحثون الخوارزمية منذ عقود، وتم إجراء الكثير من التحسينات عليها. تحاول هذه الخوارزمية العثور على مجموعات عن طريق تقليل المسافة بين الملاحظات، تسمى الحلول المثلى المحلية

تستخدم خوارزمية K-means ا لتحليل اتجاهات القراء في مكتبات الجامعات والكليات، بهدف تحسين جودة الخدمة وتحسين عمل المكتبات بشكل فعال. يمكن ومن خلال استخدام خوارزمية K-means مساعدة مديري المكتبات على تحليل خصائص القراء وعلاقاتهم ووضعهم ضمن مجموعات متشابهة وهذه اول خطوة فيما يسمي بالعنقدة أو التجميع، وذلك لفهم خصائص القراء واحتياجاتهم الفعلية. بعد ذلك، ينبغي على المكتبات وضع استراتيجيات مناسبة لتحسين خدماتها وارضاء القارئ بناءً على خصائص القراء واحتياجاتهم الفعلية.

 التنقيب عن البيانات رؤية مستقبلية

تقنية التنقيب عن البيانات ليست ناضجة بما فيه الكفاية، والبحث في التقنية هو في الأساس في مرحلة المناقشة النظرية، وهناك عدد قليل من الحالات البحثية هي متاحة للممارسة . مطلوب الاستكشاف والبحث المستمر، وذلك لجعل مكتبات الجامعات والكليات المنصات الأفضل للمعلمين والطلاب للحصول على وتبادل المعلومات. فعلى مدار العشرات من السنوات رأينا المكتبات تقوم بجمع الكثير من البيانات عن مجموعاتها ومستخدميها، ولكنها نادراً ما استخدمت هذه البيانات لاتخاذ القرارات الأفضل. فمما لاشط فيه انه ومن خلال اتخاذ نهج أكثر نشاطا يستند إلى تطبيقات استخراج البيانات، وتصور البيانات والإحصاءات، يمكن لمنظمات المعلومات الحصول على صورة أوضح لاحتياجاتها في تقديم المعلومات وإدارتها. في نفس الوقت، يجب أن تستمر المكتبات في حماية مستخدميها وموظفيها من سوء استخدام سجلات البيانات الشخصية. حيث أنه يتوجب على أمناء المكتبات أن يوازنوا بين حماية المعلومات والحاجة إلى إنشاء خدمات مكتبة جديدة، يجب على المكتبيين البدء في أخذ زمام المبادرة في استخدام أنظمتهم وبياناتهم من أجل الميزة التنافسية وتبرير استمرار الدعم و تمويل المكتبات. فالمعلومات التي يتم اكتشافها من خلال تطبيق تقنيات التنقيب عن البيانات لديها القدرة على توفير المال، وتوفير برامج أكثر ملاءمة، وتلبية المزيد من احتياجات المستخدم من المعلومات،