من المؤكد أن التنقيب في البيانات Data mining هو من الموضوعات بالغة الأهمية ... وإلا ما الذي يجعلها أحد الموضوعات الأكثر أهمية لرئيس الولايات المتحدة أوباما Obama ؟ فالمتتبعون لنشاط رئيس الدولة الأكثر تحكماً في العالم سيعرفون أنه بتاريخ 17 ديسمبر 2013، كان في لقاء مع قيادات تقنية المعلومات والذين كان منهم Tim Cook من شركة أبل Apple و Eric Schmidt من جوجل وكذلك المدراء التنفيذيين لكل من Twitter، Microsoft، Facebook، Salesforce، Netflix ، Etsy، Dropbox، Yahoo!، Zynga، Sherpa Global، Comcast، LinkedIn!!! وذلك لمناقشة موضوع التنقيب في البيانات . كما أنه في خطاب له بتاريخ 17 يناير 2014 عاود من جديد طرح الموضوع من خلال الدعوة إلى إجراء إصلاحات في نظام التنقيب عن البيانات.
ذلك يؤكد الاهتمام الذي يتم إيلاءه لموضوع التنقيب في البيانات على المستوي الدولي والعالمي.
ماذا يعني التنقيب عن البيانات
أدي الانتشار الواسع لتقنية المعلومات وسهولة إتاحتها إلى تضخم حجم المعلومات بصورة استباقية لم يشهدها التاريخ من قبل، مما جعل من قضية البيانات الضخمة على الإنترنت مثاراً للجدل، من حيث جدوى وجودها بهذه الصورة العشوائية. وعندما نتحدث عن البيانات الضخمة، فإننا نتحدث عن كميات لا يمكن تخيلها من البيانات متعددة الأنواع والمصادر بحجم يصل إلى المئات من التيرابايت أو حتى البيتابايت (البيتابايت هو الرقم واحد متبوعا بـ 15 صفر). كما أن شركة IBM تتحدث عن 2.5 كوينتيليون بايت من البيانات كل يوم (الكوينتيليون هو الرقم واحد متبوعا بـ 18 صفرا). معلومات في كل مكان وفي موضوعات شتي. وهنا نتساءل ما أهمية هذه البيانات في ظل وجود حقيقة تشير إلى أن المعلومات المنظمة من هذه البيانات لا تشكل إلا جزءً ضئيلاً يصل إلى 10% مقارنه بالمعلومات غير المنظمة والتي تشكل الباقي. ذلك أدي إلى ازدياد الحاجة إلى تطوير أدوات تمتاز بالقوة لتحليل البيانات واستخراج المعلومات والمعارف منها، فالأساليب التقليدية والإحصائية لا تستطيع أن تتعامل مع هذا الكم من الهائل لذا تستخدم أدوات ذكية لمعالجة هذه البيانات.
من هنا ظهر ما يسمى باستخراج البيانات Data Mining كتقنية تهدف إلى استنتاج المعرفة من كميات هائلة من البيانات، تعتمد على الخوارزميات الرياضية والتي تعتبر أساس التنقيب عن البيانات وهي مستمدة من العديد من العلوم مثل علم الإحصاء والرياضيات والمنطق وعلم التعلم، والذكاء الاصطناعي والنظم الخبيرة، وعلم التعرف على الأنماط ،وعلم الآلة. وغيرها من العلوم والتي تعتبر من العلوم الذكية وغير التقليدية.
ظهر التنقيب في البيانات (Data mining) في أواخر الثمانيات وأثبت وجوده كأحد الحلول الناجحة لتحليل كميات ضخمة من البيانات، وذلك بتحويلها من مجرد معلومات متراكمة وغير مفهومة (بيانات) إلى معلومات قيِّمة يمكن استغلالها و الاستفادة منها بعد ذلك.
وقد اجتذبت مرحلة التنقيب في البيانات الكثير من الاهتمام في الأوساط البحثية على مدي العقد الماضي، في محاولة لتطوير خوارزميات قابلة للتوسع والتكيف مع كميات متزايدة من البيانات في البحث عن أنماط معرفية ذات معنى. وقد نمت حزم من الخوارزميات والبرمجيات و بشكل كبير خلال العقد الماضي، إلى حد أن التوسع قد جعل من الصعب على العاملين في هذا الحقل تتبع التقنيات المتاحة لحل مهمة معينة.
ولكن ما أذهلني عند البحث عن تعريفات لمفهوم التنقيب في المعلومات، الكم الهائل من التعريفات لهذا المفهوم. فموقع مؤسسة IGI Global يقدم 82 تعريفاً لمفهوم التنقيب في البيانات. بعد المرور على جميع هذه التعريفات، تم اختيار التعريفات التالية:
-
عملية البحث داخل كميات كبيرة من البيانات للكشف عن العلاقات التي لم يتم كشفها سابقا بين عناصر البيانات؛ والمعروفة أيضا باسم اكتشاف المعرفة في قواعد البيانات (KDD
-
هي النشاط الذي يقوم باستخراج المعلومات المتواجدة في كميات كبيرة من البيانات، بهدف البحث عن أنماط معرفية واكتشاف الحقائق الخفية الواردة في قواعد البيانات.
-
هي عملية تحليل البيانات لتحديد العلاقات التي لم تكتشفها التحليلات السابقة من قبل. كما أنها تحليل البيانات لإقامة علاقات وتحديد أنماط.
-
تحليل البيانات المتواجدة في قواعد البيانات باستخدام الأدوات التي تبحث عن الاتجاهات أو البيانات التي لا معنى لها، واستخراج معلومات ضمنية، لم تكن معروفة سابقا، ويمكن أن تكون مفيدة.
-
عملية استخراج أنماط معرفية من مجموعات البيانات الكبيرة من خلال الجمع بين الأساليب من الإحصاءات والذكاء الاصطناعي مع إدارة قواعد البيانات.
-
هو خطوة واحدة في اكتشاف المعرفة داخل قواعد البيانات (KDD) حيث تستخدم أساليب التحليل مثل: الشبكات العصبية Neural Networks أو الخوارزميات الجينية Genetic Algorithms أو شبكة القرارات Decision Trees والتقنية والنماذج الهجينة Hybrid Models لتحديد الأنماط والعلاقات في مجموعات البيانات.
-
عملية اكتشاف المعرفة في قواعد البيانات عن طريق تحديد الأنماط والاتجاهات في البيانات التي تم جمعها باستخدام طرق مختلفة مثل : التصنيف Classification أو التحليل التسلسلي Sequential analysis أو العنقدة (التجميع) clustering أو قواعد الارتباط Association Rule.
-
عملية يتم من خلالها فرز كميات كبيرة من البيانات بهدف استخلاص المعلومات ذات الصلة. ويستخدم هذا المصطلح على نحو متزايد في العلوم لاستخراج المعلومات من مجموعات البيانات الهائلة الناتجة عن الطرق التجريبية والرصدية الحديثة، ولاسيما في سياق الحقول البيولوجية.
-
عملية الاختيار، والاستكشاف، ووضع نماذج لكميات كبيرة من البيانات لاكتشاف الاطراد أو العلاقات المجهولة بهدف الحصول على نتائج واضحة ومفيدة لمالك قاعدة البيانات.
-
فرع من علوم الكمبيوتر، يهتم باستخراج أنماط من مجموعات البيانات الكبيرة من خلال الجمع بين التحليل الإحصائي والذكاء الاصطناعي مع إدارة قواعد البيانات. ويعتبر استخراج البيانات كأداة ذات أهمية متزايدة من قبل رجال الأعمال الحديثة لتحويل البيانات إلى معلومات لإعطاء الأعمال ميزة إعلامية. ويستخدم حاليا في مجموعة واسعة من الممارسات التنميط، مثل التسويق، والمراقبة، والكشف عن الغش، واختيار شريك تجاري.
-
فرع مهم في الصناعة والسوق، واسترجاع المعلومات الهامة من كمية هائلة من البيانات. ويستخدم عادة مع كمية هائلة من البيانات غير المتجانسة، حيث استخدام أجهزة الكمبيوتر أمر لا مفر منه
-
في اللغة الشائعة، غالباً ما يتم الإشارة إلى التنقيب عن البيانات بصفة عامة إلى فكرة التحقيق بعمق في جبال من البيانات. هذا الاستخدام غير الرسمي لهذا المصطلح عادة ما يستخدم القليل من التقنيات للقيام بالتحقيق. في المقابل، فإن الاستخدام الرسمي لهذا المصطلح يشير تحديدا إلى استخدام التقنيات الحاسوبية للكشف عن أنماط في مجموعات البيانات الضخمة. تتنوع هذه التقنيات ما بين الأساليب الإحصائية إلى الذكاء الاصطناعي. ومجموعات التحقق واستخراج البيانات، وهي متنوعة ومتزايدة أكثر من أي وقت مضى.
-
عملية تقنية تستخدم خوارزميات لتحليل البيانات من وجهات نظر متعددة واستخراج أنماط ذات معنى والتي يمكن استخدامها للتنبؤ بالسلوك المستقبلي للمستخدمين. نظام تحليل سلة السوق الذي يستخدمه Amazon.com يوصي بمنتجات جديدة لعملائها على أساس مشترياتهم الماضية، وهو مثال معروف على نطاق واسع للكيفية التي يمكن أن تستخدم التنقيب عن البيانات في مجال التسويق.
-
عملية اكتشاف الارتباطات ذات المغزى، والأنماط، والاتجاهات بالنخل من خلال كميات كبيرة من البيانات المخزنة في المستودعات، وذلك باستخدام تقنيات التعرف على الأنماط وكذلك الأساليب الإحصائية والرياضية.
-
اكتشاف المعرفة في قواعد البيانات هي أنماط معرفية مفهومة يتم استخراجها من مجموعات البيانات الكبيرة المخزنة في قواعد البيانات databases ومستودعات البيانات الضخمة data warehouses.
-
في عام 2001 كتب Jiawei Han & Micheline Kamber عن التنقيب عن البيانات باعتبارها جزءا رئيسا من اكتشاف المعرفة. التنقيب عن البيانات هو كل شيء مرتبط باستخراج المعرفة المفيدة من كميات كبيرة من البيانات. إنه العثور على مجموعة صغيرة من الشذرات الثمينة (المعرفة) من قدر كبير من المواد الخام (البيانات).
-
هناك مصطلحات أخرى ذات الصلة التي تستخدم أيضا في الأوراق الأكاديمية والبحثية للتنقيب عن البيانات، مثل التنقيب عن المعرفة، واستخراج المعرفة، وأنماط تحليل البيانات، وعلم آثار البيانات وتجريف البيانات، ولكن في عالم الأعمال عموما مصطلح "التنقيب البيانات" هو أكثر شعبية.
-
التنقيب عن البيانات هو حقل متعدد التخصصات، يستفيد من المجالات بما في ذلك تقنية قاعدة البيانات، الذكاء الاصطناعي، والتعلم الآلي، والشبكات العصبية، والإحصاءات والتعرف على الأنماط، والنظم القائمة على المعرفة، واكتساب المعرفة، واسترجاع المعلومات، والحوسبة عالية الأداء والصورة ومعالجة الإشارات، وتحليل البيانات المكانية و البيانات التصورية ( Data Visualization )، والتي تعتمد بشكل كلي على الإدراك البصري.
مراحل اكتشاف المعرفة:
اكتشاف المعرفة في قواعد البيانات (Knowledge Discovery in Database (KDD ليس بالعملية السهلة والتي قد يعتقد البعض أنها تتوقف عند تجميع البيانات وإدارتها، بل نراها تمتد إلى التحليل والتوقع والتنبؤ بما سيحدث مستقبلاً.
التنقيب في البيانات يشكل جزءا من اكتشاف المعرفة knowledge discovery، وهذه العملية هي الأكثر شمولا. تتضمن عملية اكتشاف المعرفة الخطوات التالية:
١- اكتشاف البيانات Data discovery:
وهي مرحلة جمع البيانات وتشمل كشف وتحديد وتوصيف البيانات المتاحة.
٢- تصفية البيانات وتنقيتها Data cleaning:
ويتم في هذه المرحلة إزالة البيانات المزعجة Noise التي لا أهمية لها، كما يتم حذف البيانات المتضاربة والبيانات الغير متناسقة.
٣- تكامل البيانات Data integration:
يتم في هذه المرحلة تجميع البيانات المتشابهة وذات الصلة من مصادر البيانات المتعددة ودمجها معا.
٤- اختيار البيانات Data selection:
في هذه المرحلة، يتم تحديد واسترجاع البيانات الملائمة من مجموعة البيانات.
٥- تحويل البيانات Data transformation:
في هذه المرحلة يتم تحويل البيانات إلى نماذج مخصصة ملائمة لإجراءات البحث والاسترجاع بواسطة خلاصة الإنجاز أو عمليات التجميع.
٦- التنقيب عن البيانات Data mining:
أي استخدام طرق ذكية تطبق لاستخلاص أنماط البيانات استخراج نماذج مفيدة قدر الإمكان.
٧- تقييم النمط Pattern evaluation:
يتم في هذه المرحلة تحديد الأنماط المهمة حقا والتي تمثل قاعدة المعرفة لاستخدام بعض المقاييس المهمة.
٨- تمثيل المعرفة وتقديمها Knowledge presentation:
وهي المرحلة الأخيرة من مراحل اكتشاف المعرفة في قواعد البيانات وهي المرحلة التي يراها المستفيد، هذه المرحلة الأساسية تستخدم الأسلوب المرئي لمساعدة المستفيد في فهم و وتفسير نتائج استخراج البيانات.
وبالتالي التنقيب في البيانات هو خطوة أساسية لتطبيق أساليب ذكية بهدف الكشف عن أنماط البيانات المثيرة للاهتمام والمخبأة في مجموعات البيانات الكبيرة. ومع ذلك، في بعض المنظمات نجد أن مصطلح التنقيب عن البيانات "data mining" أصبح أكثر شعبية للإشارة إلى العملية التي يتم فيها اكتشاف المعرفة knowledge discovery برمتها.
وهناك جانب مهم جدا، يجب النظر إليه بعين الاعتبار و هو أن هناك أنماط جديدة قد تبرز،عادة ما تكون غير معروفة من قبل. وبالتالي يجب أن تكون أدوات التنقيب عن البيانات قادرة على البحث عن أنواع مختلفة من الأنماط، بأشكال متوازية لزيادة كفاءة التنقيب عن البيانات. كما يجب أيضا أن يتم الكشف عن الأنماط في الأجزاء الصغيرة والفرعية، والتي تعرف بالحبيبات granularities ، مما يعني البحث في مستويات مختلفة من التجريد أو التفصيل. حلول التنقيب عن البيانات الجيدة هي التي تشير أيضا إلى قدر من الثقة أو اليقين المرتبطة مع نمط اكتشافها، لأن بعض الأنماط قد لا تصلح لكافة البيانات في مجموعة البيانات التي تم تحليلها.
استخدامات التنقيب عن البيانات:
في ضوء المفهوم العام للتنقيب في البيانات يبدأ التساؤل عن الفوائد التي يمكن للمنظمات تحقيقها من استخدام التنقيب في البيانات؟ وما هي المنظمات التي بدأت باستثمار هذه التقنية في أنشطتها؟
واحدة من القطاعات المهنية التي بدأت بالاستفادة من هذا المفهوم هي الرعاية الصحية. مع النمو في السجلات الصحية الإلكترونية (السجلات الصحية الإلكترونية)، المزيد والمزيد من التسهيلات وجمع كميات هائلة من البيانات الرقمية للمريض، بالتالي يمكن لمقدمي الرعاية الصحية والباحثين استخدام التنقيب عن البيانات من مخازن هائلة من البيانات لكشف أنماط معرفية كانت مجهولة سابقا ومن ثم استخدام هذه المعلومات لبناء النماذج التنبؤية لتحسين التشخيص ونتائج الرعاية الصحية.
مهنة أخرى استطاعت الاستفادة من التنقيب عن البيانات وهي قطاع تجارة التجزئة. من خلال تطبيق أدوات التنقيب عن البيانات، وسلاسل البيع بالتجزئة أصبحت قادرة على اكتشاف الأيام التي يتوافد المستهلكون فيها بغزارة إلى المحلات التجارية والقيام بالتسوق الخاص بهم، وكيف ينفقون معظم أموالهم؟ وعلى أي من المنتجات المتواجدة يذهب المال؟ كل هذه المعلومات والمعرفة بهذه الأنماط والتي قد يكون الكثير منها غير معروف لديهم، ساعد المخططين على توجيه استثماراتهم بناءً على هذه المعلومات المكتسبة لزيادة إيراداتها في الواقع.
التنقيب في البيانات هو إعادة رؤية للبيانات من منظور جديد ومن هنا تكون القيمة المضافة والذي تعطي بيانات لا يمكن توقعها بالأساليب التقليدية. التنقيب عن البيانات يعطي هذه القيم المضافة في مجالات عددية إذا ما تم استخدامه.
[youtube http://www.youtube.com/watch?v=BjznLJcgSFI&w=560&h=315]
في تدوينه قادمة سيتم مناقشة مجالات استخدامه بصورة أوسع سواء في الطب أو الكيمياء الحيوية والتجارة والمكتبات ومؤسسات المعلومات التي كانت الصين من الدول الرائدة في استخدام التنقيب عن البيانات في هذا المجال ( المكتبات)، كما سنعرف كيف أثرت تقنية التنقيب عن البيانات في قرار الممثلة العالمية أنجلينا جولي إجراء عملية جراحية. هذا بالإضافة إلى مناقشة الأنظمة والبرمجيات التي يتم استخدامها لإجراء عمليات التنقيب عن المعلومات.
إعداد: هيـام حـايك- كاتبة بمدونة نسيــج
المصادر: http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm