ما هو علم البيانات، وكيف أصبح فجأة حديث الساعة؟ ماذا يعني أن تكون عالم بيانات؟ وما العلاقة بين علم البيانات والبيانات الكبيرة والتنقيب عن البيانات؟ كيف يمكننا استخدام علم البيانات؟ وما القيمية الحقيقية للبيانات الكبيرة؟ كيف يمكن لمثل هذه النظم الكبيرة أن تساعدنا على اتخاذ القرارات؟ ومتى تكون قادرة على خلق نماذج تنبؤيه وتوفير بيانات تساعد في تسهيل القرارات للإدارة العليا؟ العديد من الأسئلة التي سنحاول إثارتها اليوم في محاولة لفهم التغييرات التي أحدثها تضخم بالبيانات وتناميها المطرد.
نتحدث اليوم عن الحوسبة السحابية والعوالم الافتراضية والحوارات التي غالبا ما تحدث في عالم رقمي؛ ذلك يعنى بيانات وبيانات ...
فأنظمة الكمبيوتر لم تعد قطع وآلات، كما أنها ليست متاحة بصورة مادية، وهناك الكثير من الفرص لتحسين العديد من هذه الجوانب المختلفة لحياتنا من خلال الحوسبة وتوظيف البيانات.
كيف ترفد البيانات الكبيرة علم البيانات؟
قد تسأل نفسك: ما الصلة بين علم البيانات والبيانات الكبيرة؟ وكيف يمكن لأحدهما التأثير على الآخر؟ تواجه البيانات الكبيرة العديد من التحديات التي ألهمت علم البيانات لجلب الكثير من التقنيات معا، بما يمكنها من خلق المعني وسط هذه الفوضى الكبيرة من البيانات السريعة الحركة والبيانات غير المؤكدة. لذلك ونحن الآن نتحدث عن الذهاب إلى أبعد من قواعد البيانات العلائقية، إذا كنت لاتزال تفكر في الصورة التي كانت قبل عشر سنوات حيث تم تخزين معظم البيانات في قواعد البيانات العلائقية، الصورة اليوم متغيرة للغاية، لن تتخيل ما يحدث في ستين ثانية على شبكة الإنترنت، فالناس يبحثون عن أشياء مختلفة فهم يستكشفون ويشترون أشياء مختلفة.
لدينا الكثير من البيانات المتدفقة. هناك أجهزة استشعار في كل مكان وهذا هو السبب في أننا بدأنا الحديث عن أنترنت الأشياء: Internet of Things – IoT وهو مصطلح برز حديثا ويُقصد به الجيل الجديد من الإنترنت (الشبكة) الذي يتيح التفاهم بين الأجهزة المترابطة مع بعضها (عبر بروتوكول الإنترنت). وتشمل هذه الأجهزة والأدوات والمستشعرات والحساسات وأدوات الذكاء الاصطناعي المختلفة وغيرها. ويتخطى هذا التعريف المفهوم التقليدي وهو تواصل الأشخاص مع الحواسيب والهواتف الذكية عبر شبكة عالمية واحدة ومن خلال بروتوكول الإنترنت التقليدي المعروف. ما يميز إنترنت الأشياء أنه تتيح للإنسان التحرر من المكان، أي أن الشخص يستطيع التحكم في الأدوات دون الحاجة إلى التواجد في مكان محدّد للتعامل مع جهاز معين وهناك أضعافا مضاعفة لأدوات الرقابة المتزايدة التي يجري نشرها في كل مكان في العالم. و البيانات تتراشق بوتيرة سريعة للغاية.
لذا يجب أنْ تدرك أنَّ طبيعة البيانات العملاقة تختلف بشكل كبير، فليست كل البيانات مُهيكلة ويمكن وضعها في جداول وإدراجها في برامج التحليل كأرقام. بل إنًّه من المدهش والمزعج أيضًا أن تعلم أن نسبة ضئيلة جدًا تمثل حوالي 20% من البيانات العملاقة هي فقط بيانات مُهيكلة structured data والباقي كله والذي يتزايد بشكل مخيف هو بيانات عشوائية غير مُهيكلة unstructured data لا يمكن تنسيقها في جداول كالبريد الإلكتروني ومنشورات ومحادثات وسائل التواصل الاجتماعي وما إلى ذلك. . هذه التحديات التي تواجهها البيانات الكبيرة تستدعي التعامل مع التقنيات الجديدة، والمنصات الجديدة؛ ومنهم Hadoop، أو HDFS، تستخدم طريقة هادوب في التخزين نظام ملفات موزع يقوم بكشف البيانات أينما كانت في كتلة مخدمات هادوب. كما أن أدوات معالجة تلك البيانات موزعة أيضاً، وتقع غالباً على نفس المخدمات التي تضم البيانات، هذا ما يفيد في جعل معالجة البيانات بتتم طريقة أسرع. الآن نحن قادرون على استخدام هذه النظم منخفضة التكلفة الموزعة بحيث يمكنها معالجة بعض الاحتياجات التي تولدت جراء وجود البيانات الكبيرة ونري ذلك في مرحلة ( Extraction-transformation-loading (ETL والتي تتمثل في عملية استخلاص البيانات و تحويلها إلى شكل مناسب، ثم تحميلها إلى مخزن البيانات (Data warehouse) بسرعة و ربما القيام ببعض ملخصات سريعة، واستخراج بعض القطع المثيرة للاهتمام في المعلومات، أو استخدام بعض التحليلات المتقدمة واكتساب نظرة أعمق إلى مجموعة البيانات المتوفرة لدينا. لذلك ما لدينا الآن ليس مجرد مستودع للبيانات، لدينا مجموعة جديدة كاملة من تقنيات البيانات الكبيرة التي شهدناها، ونحن نتحدث عن الذهاب إلى أبعد مستودع ليس فقط في حجم البيانات، وليس فقط في البنية، ولكن كيف نتفاعل مع واقع تلك البيانات. لا يمكننا استخدام SQL بعد الآن؟ ربما. هناك بعض الأدوات التي تحاكي الطريقة التي يعمل SQL ويمكن أن تساعدك على الوصول إلى البيانات الخاصة بك.
موارد جديدة للبيانات وتقنيات جديدة:
نحن نتحدث عن البيانات على شبكة الإنترنت: البيانات السريعة وتدفق البيانات والتفاعل بين البيانات، ذلك يعنى جمع بيانات الرصد والاستهلاك والتركيبة السكانية والبحث في تفضيلات الناس. الناس الذين يقولون لنا بصراحة ما يحبون وما يكرهون وما يرغبون. يمكننا أن ننظر في التفاعلات الاجتماعية. يمكننا أن ننظر إلى تجمعات الناس. يمكننا أن ننظر فيما يفعلونه في أوقات فراغهم. هناك الكثير من الموارد الجديدة اليوم التي لم تكن موجودة من قبل. فكيف نجد معنى في الفوضى؟ كذلك هناك الكثير من التقنيات المختلفة التي يمكن تطبيقها. هناك تقنيات للتكامل، والتحول، وتحميل هذه البيانات. إنها مجموعة من التقنيات التي تجمع كل هذه البيانات وتسمح لنا بدمجها معا. ثم هناك تقنيات التحليلات. يمكن أن نتحدث عن تحليلات بسيطة كالتحليل الإحصائي ومن ثم يمكننا أن نتحدث عن التحليلات المتقدمة والتحليلات التنبئية باستخدام تقنيات مختلفة.
البيانات الكبيرة تحركنا فيما وراء أدوات الأعمال التقليدية، وما وراء اللوحات التقليدية والمستودعات. هذا لا يعني أننا لسنا بصدد استخدام برنامج إدارة الملفات iTools أو لوحات القياس dashboards، ولكن في هذه الأيام عليك أن تبدأ رؤية الكثير من اللوحات التنبئية. يمكنك أن ترى لوحات وأنظمة حيث تظهر القيمة المتوقعة والقيمة الفعلية وما سيحدث في الدقيقة القادمة أو الساعة القادمة. كل هذه الأدوات الآن تتطل علينا في هيئة إصدارات قابلة للتوزيع ، حيث يمكنك العمل على مجموعة بيانات كبيرة جدا مع العديد من خوارزميات تعلم الآلة بشكل متوازي، وهي قادرة على العمل على هذه المنصات الجديدة.
منذ سنوات كنا نتحدث عن أخذ عينة من البيانات واستخدام بعض خوارزميات تعلم الآلة والخروج ببعض النماذج التنبئية، ومن ثم تطبيق تلك النماذج على مجموعة أكبر من البيانات. اليوم من المؤكد أنه من الصعب العمل بهذه الطريقة وربما لا نحتاج للقيام بذلك. تخيل أن لديك zettaytes من البيانات، فهل تتخيل حجم الهيمنة التي تتناسب مع هذا الكم من البيانات؟ هذا لا يزال يمثل تحديا للكثير من التقنيات والموارد التقليدية والتقنيات.
علم البيانات وفرص العمل
نحن نعلم أن هناك نقص في المواهب اللازمة لملء المنظمات، من أجل التعامل مع كافة البيانات الكبيرة. ووفقا لتقرير ماكينزي، بحلول عام 2018 ستشهد الولايات المتحدة نقصا يقدر بحوالي 140 إلى 190ألف شخص من ذوي المهارات التحليلية العميقة وكذلك 1.5 مليون من المديرين وخبراء تحليل البيانات الكبيرة، قد تندهش وتتساءل هل بالفعل يحتاجون إلى هذا العدد الكثير من المديرين؟
هناك سبب وجيه لذلك، فمن الواضح أن هناك العديد من المشاريع التي هي بحاجة إلى التعامل مع تحليلات أو بيانات كبيرة. عدد كبير ممن سيعملون على سد النقص هم الآن في مرحلة البكالوريوس، فقد ارتفع عدد خريجي البكالوريوس في الإحصاء بأكثر من 140٪ منذ عام 2003 كما أن مجلة فورتشن ترى أنه حتى مع وجود هذا المعدل الكبير من البطالة بوجه عام، لا تزال هناك أعمال عصرية وجديدة يعمل الناس على ملئها.
وظائف ذات العلاقة بعلم البيانات تنمو بسرعة، ولو نظرت بشكل سريع على مواقع البحث عن الوظائف مثل: Indeed.com وLinkedIn.com، ستعرف كم هذه الوظائف هي بالفعل مطلوبة لذلك، إذا كنت هنا مستمتعا في قراءة هذه المعلومات ربما تكون صاحب إحدى هذه الوظائف خلال السنة أو السنتين المقبلتين. ولذلك لابد أن نتساءل حول ما يمكننا القيام به لتضييق هذه الفجوة؟ وكيف يمكننا توسيع نظام التعليم لدينا وإعادة تشكيل مناهج قادرة على ملء هذه الفراغات. كما من المهم أن نتعرف على مواصفات الناس المرشحة لأن تكون عالمة بيانات؟ من هم علماء البيانات؟ وماذا يعملون؟ ما هي فرص العمل؟ و إذا كنت أنا اعمل في مجال ذكاء الاعمال business intelligence، أو تحليل الأعمال business analyst فهل أنا مناسب تماما لأصبح عالما البيانات؟ هناك الكثير من الأسئلة التي تتمركز حول كيفية فهم علم البيانات وعلماء البيانات والتي سيتم نقاشها في الجزء الثاني من هذا الموضوع. كما ستم في الجزء الثالث استكمال هذا الموضوع.