بيت المعدات حديد كبير ، تلبية البيانات الكبيرة: تحرير البيانات المركزية مع hadoop والشرارة

حديد كبير ، تلبية البيانات الكبيرة: تحرير البيانات المركزية مع hadoop والشرارة

Anonim

بواسطة Techopedia Staff ، 2 يونيو 2016

الوجبات الجاهزة: يتم استخدام النظام البيئي Hadoop على أجهزة الكمبيوتر المركزية لمعالجة البيانات الكبيرة بسرعة وكفاءة.

أنت لم تسجل الدخول حاليًا. يرجى تسجيل الدخول أو التسجيل لمشاهدة الفيديو.

إريك كافانا: حسناً أيها السيدات والسادة ، إنها الساعة الرابعة من صباح يوم الخميس ، وهذا يعني أن هذه الأيام حان الوقت بالطبع لشركة Hot Technologies. نعم بالفعل ، اسمي إريك كافاناغ. سوف أكون مشرفك في ندوة الويب اليوم. إنها أشياء جيدة ، أيها الناس ، "Big Iron ، تعرف على البيانات الضخمة" - أحب هذا العنوان - "تحرير بيانات Mainframe مع Hadoop و Spark". سنتحدث عن لقاءات قديمة جديدة. رائع! نحن نغطي نطاق كل ما تحدثنا عنه في السنوات الخمسين الأخيرة من تكنولوجيا المعلومات الخاصة بالمؤسسات. شرارة تجتمع المركزية ، وأنا أحب ذلك.

هناك بقعة عنك حقا وكافية عني. العام حار. نتحدث عن مواضيع ساخنة في هذه السلسلة لأننا نحاول حقًا مساعدة الأشخاص على فهم بعض التخصصات ، ومساحات معينة. ما معنى أن يكون لديك ، على سبيل المثال ، منصة تحليلية؟ ماذا يعني تحرير البيانات الكبيرة من الحاسبات الكبيرة؟ ماذا تعني كل هذه الأشياء؟ نحاول مساعدتك في فهم أنواع معينة من التقنيات ، حيث تتناسب مع هذا المزيج وكيف يمكنك الاستفادة منها.

لدينا اثنين من المحللين اليوم وبعد ذلك بالطبع Tendü Yogurtçu من Syncsort. إنها صاحبة رؤية في فضاءنا ، وهي سعيدة جدًا بتواجدها على الإنترنت اليوم ، مع ديز بلانشفيلد والدكتور روبن بلور. سأقول بضع كلمات سريعة. أحدهما هو أنك تلعب دورًا كبيرًا في هذه العملية ، لذا يرجى ألا تخجل من طرح بعض الأسئلة الجيدة. نود الوصول إليهم خلال مكون الأسئلة والأجوبة في البث الشبكي ، والذي عادة ما يكون في نهاية العرض. وكل ما أقوله هو أن لدينا الكثير من المحتوى الجيد ، لذلك أنا متحمس لسماع ما يقوله هؤلاء الأولاد. ومع ذلك ، سأقوم بتسليمها إلى Dez Blanchfield. Dez ، الكلمة لك ، خذها.

ديز بلانشفيلد: شكرًا لك ، إيريك ، وشكراً للجميع لحضوركم اليوم. لذا فإنني متحمس جدًا عندما تتاح لي الفرصة للتحدث عن أحد الأشياء المفضلة لدي في العالم ، وهي الإطارات الرئيسية. لا يحصلون على الكثير من الحب هذه الأيام. وجهة نظري هو المركزية وكان منصة البيانات الكبيرة الأصلي. قد يجادل البعض بأنهم كانوا الكمبيوتر الوحيد في ذلك الوقت وهذه نقطة جيدة يجب أن نذكرها ، ولكن منذ أكثر من 60 عامًا ، أصبحوا بالفعل غرفة المحرك لما كانت البيانات الضخمة ذات شعبية كبيرة في الآونة الأخيرة. وسوف آخذك في رحلة صغيرة حول سبب اعتقادي أن هذا هو الحال.

لقد رأينا رحلة في مكدسات الأجهزة التكنولوجية في سياق الإطارات الرئيسية تتحول من الصورة التي تراها على الشاشة الآن. هذا هو المركزية القديمة FACOM ، واحدة من المفضلة. لقد انتقلنا إلى مرحلة الحديد الكبيرة ، أواخر التسعينيات وازدهار dot-com. هذا هو Sun Microsystems E10000. كان هذا الشيء وحش مطلق في 96 وحدات المعالجة المركزية. في الأصل 64 ولكن يمكن ترقيتها في 96 وحدات المعالجة المركزية. يمكن لكل وحدة المعالجة المركزية تشغيل 1.024 المواضيع. يمكن أن يكون كل مؤشر ترابط بمعدل التطبيق في نفس الوقت. كان مجرد وحشية وأنها في الواقع بدعم الطفرة دوت كوم. هذا هو كل وحيد القرن كما نسميه ، والآن نحن ندير ، وليس فقط الشركات الكبيرة ، وبعض المواقع الكبيرة.

ثم انتهى بنا المطاف مع هذا النموذج المشترك لأجهزة الكمبيوتر الشخصية للسلع الجاهزة. لقد قمنا بتجميع الكثير من الآلات الرخيصة معًا وقمنا بإنشاء مجموعة وتناولنا تحدي الحديد الكبير وما أصبح بيانات كبيرة خاصة في شكل مشروع Hadoop الذي نتج عن محرك البحث المفتوح المصدر Nutch. وقمنا في الأساس بإعادة إنشاء الإطار الرئيسي والكثير من وحدات المعالجة المركزية الصغيرة التي يتم لصقها معًا وتكون قادرة على التصرف مثل مسارات L وفي شكل تشغيل وظائف منفصلة أو أجزاء من الوظائف وكانت فعالة جدًا بطرق عديدة. أرخص إذا كنت بدأت أصغر ، ولكن كثيرًا من هذه المجموعات الكبيرة أصبحت أغلى من الحاسوب الرئيسي.

وجهة نظري حول هذه الأشياء هي أنه في عجلة من الازدهار من ازدهار دوت كوم إلى ما أصبح الويب 2.0 والآن مطاردة حيدات ، لقد نسينا أن هذا النظام الأساسي لا يزال يعمل على تشغيل العديد من أكبر أنظمة مهمتنا المهمة هناك. عندما نفكر في ما يجري على منصات المركزية هناك. إنها البيانات الكبيرة إلى حد كبير ، ولا سيما العمود الفقري للبيانات ، ولكن البيانات الضخمة بالتأكيد. نظم المؤسسات والحكومة التقليدية مثل إدارة البنوك والثروة والتأمين على وجه الخصوص ، نستخدمها كل يوم.

أنظمة الحجز وإدارة الطيران ، وخاصة إدارة الرحلات الجوية في الوقت الحقيقي أمر بالغ الأهمية. كان لكل ولاية وحكومة فيدرالية تقريبًا في وقت ما حاسب مركزي ولا يزال كثيرون منهم يمتلكونها. تجارة التجزئة والتصنيع. بعض البرامج القديمة الموجودة للتو ولم تختف مطلقًا. فقط لا تزال تعمل بالطاقة في بيئات التصنيع وبالتأكيد على نطاق واسع. الأنظمة الطبية. أنظمة الدفاع ، بالتأكيد أنظمة الدفاع.

خلال الأسبوعين الماضيين قرأت العديد من المقالات حول حقيقة أن بعض أنظمة التحكم في الصواريخ لا تزال تعمل على أجهزة الكمبيوتر المركزية القديمة التي تكافح من أجل العثور على أجزاء لها. إنهم يكتشفون كيفية الترقية إلى أجهزة الحاسوب المركزية الجديدة. أنظمة النقل والخدمات اللوجستية. قد لا تبدو هذه المواضيع مثيرة ولكن هذه هي الموضوعات التي نتعامل معها على أساس يومي عبر الخطوط. ولا تزال بعض بيئات الاتصالات السلكية واللاسلكية الكبيرة تعمل على منصات أجهزة الكمبيوتر المركزية.

عندما تفكر في أنواع البيانات الموجودة هناك ، فإنها جميعها مهمة للغاية. إنها منصات ومنصات مهمة حقًا نأخذها كأمر مسلم به يوميًا ، ومن نواح كثيرة تجعل الحياة ممكنة. إذن من الذي لا يزال يستخدم الحاسوب الرئيسي ومن هم جميع هؤلاء الأشخاص الذين يحتفظون بهذه المنصات الكبيرة ويحملون كل هذه البيانات؟ حسنًا ، كما قلت هنا ، أعتقد أنه من السهل أن تنخدع بتحول وسائل الإعلام من الحديد الكبير إلى مجموعات من الأرفف الشائعة أو أجهزة الكمبيوتر الشخصية الرخيصة أو أجهزة x86 ، إلى التفكير في أن الحاسوب المركزي قد مات وذهب. لكن البيانات تقول إن الحاسوب المركزي لم يختف قط ، بل إنه في الحقيقة يظل هناك.

أظهر البحث الذي قمت بتجميعه هنا في الأسبوعين الأخيرين أن 70 في المائة من المؤسسات ، خاصة المؤسسات الكبيرة ، لا تزال البيانات موجودة فعليًا على شكل رئيسي من أشكال ما. لا يزال واحد وسبعون في المائة من مجلة Fortune 500 تدير أنظمة أعمال أساسية على أجهزة الكمبيوتر المركزية في مكان ما. في الواقع ، هنا في أستراليا ، لدينا عدد من المنظمات التي لديها مركز بيانات في وسط المدينة. إنه جهاز كمبيوتر فعلي تحت الأرض بشكل فعال ، وعدد أجهزة الكمبيوتر المركزية التي تعمل هناك تقريبًا وتؤدي مهامها بسعادة. وهناك قلة قليلة من الناس يعرفون أن التجول في الشوارع ، أسفل أقدامهم مباشرة في جزء معين من المدينة ، يوجد مركز بيانات ضخم مليء بالإطارات الرئيسية. ما زال اثنان وتسعون من كل 100 بنك في جميع أنحاء العالم ، أكبر 100 بنك موجود ، يديرون الأنظمة المصرفية على أجهزة الكمبيوتر المركزية. تستخدم 23 من أفضل 25 سلسلة من متاجر التجزئة حول العالم أجهزة الكمبيوتر المركزية لتشغيل أنظمة إدارة البيع بالتجزئة الخاصة بها في منصات EIP و BI.

ومن المثير للاهتمام أن 10 شركات من أفضل 10 شركات تأمين لا تزال تدير منصاتها على أجهزة الكمبيوتر المركزية ، وهي تعمل فعليًا على تشغيل خدماتها السحابية على أجهزة الكمبيوتر المركزية. إذا كنت تستخدم واجهة ويب أو تطبيق جوال في مكان ما توجد به برامج وسيطة ، فستتحدث في الواقع عن شيء ثقيل وكبير حقًا في النهاية الخلفية.

لقد وجدت أكثر من 225 وكالة حكومية ومحلية في جميع أنحاء العالم تعمل على المنصات المركزية. أنا متأكد من أن هناك الكثير من الأسباب لذلك. ربما ليس لديهم ميزانية للنظر في الحديد الجديد ، لكن هذه بصمة كبيرة من البيئات الكبيرة جدًا التي تعمل على أجهزة الكمبيوتر المركزية مع بعض البيانات المهمة للغاية. وكما ذكرت سابقًا ، لا تزال معظم الدول تدير أنظمة دفاعها الرئيسية على أجهزة الكمبيوتر المركزية. أنا متأكد من نواح كثيرة أنهم يحاولون النزول إلى هناك ولكن هناك تذهب.

في عام 2015 ، أجرت IDC دراسة استقصائية وأفاد 350 من مديري المعلومات الذين شملهم الاستطلاع أنهم ما زالوا يمتلكون ويديرون حديدًا كبيرًا في شكل حواشي كبيرة. وقد أدهشني أنه من المحتمل أن يكون أكثر من عدد مجموعات Hadoop الواسعة النطاق التي تعمل حاليًا في جميع أنحاء العالم في مجال الإنتاج - وهو عدد قليل مثير للاهتمام هناك. سأذهب إلى الأمام وأؤكد ذلك ، لكنه كان عددًا كبيرًا. ذكرت ثلاثمائة وخمسون مديرًا تنفيذيًا أن هناك واحدًا أو أكثر من الأجهزة المركزية لا تزال قيد الإنتاج.

في العام الماضي ، 2015 ، منحتنا شركة IBM جهاز Z13 العظيم ، وهو التكرار الثالث عشر لمنصة أجهزة الكمبيوتر المركزية الخاصة بهم. لقد تعاملت وسائل الإعلام مع هذا الشيء لأنها ذهولت من أن شركة آي بي إم كانت لا تزال تصنع أجهزة الحاسوب المركزية. عندما رفعوا الغطاء وألقوا نظرة على ما كان تحت الشيء ، أدركوا أنه كان في الواقع على قدم المساواة مع كل منصة حديثة تقريبا كنا متحمسون في شكل بيانات كبيرة ، Hadoop وبالتأكيد المجموعات. ركض هذا الشيء سبارك والآن Hadoop أصلا. يمكنك تشغيل الآلاف والآلاف من أجهزة Linux عليه وبدا كأنه كتلة أخرى. لقد كانت آلة رائعة.

أخذ عدد من المؤسسات هذه الأمور ، وفي الحقيقة قمت ببعض البيانات حول عدد هذه الأجهزة التي تستهلكها. لقد رأيت الآن أنه تم استبدال محطة النص 3270 بمتصفحات الويب وتطبيقات الجوال لبعض الوقت ، وهناك الكثير من البيانات التي تدعم ذلك. أعتقد الآن أننا ندخل حقبة أدركنا فيها أن هذه الإطارات الرئيسية لا تختفي وأن هناك قدرًا كبيرًا من البيانات عليها. وهكذا فإن ما نقوم به الآن هو ببساطة إضافة ما أسميه أدوات تحليلات جاهزة. هذه ليست تطبيقات مخصصة. هذه هي الأشياء التي يتم تفصيلها لمرة واحدة. هذه هي الأشياء التي يمكنك شراؤها حرفيًا في صندوق مغلف بحد ذاته وتوصيله بالكمبيوتر الرئيسي والقيام ببعض التحليلات.

كما قلت من قبل ، كان الحاسوب المركزي موجودًا منذ أكثر من 60 عامًا ، في الواقع. عندما نفكر في المدة التي يستغرقها ذلك ، فهذا أطول من فترة عمل معظم محترفي تكنولوجيا المعلومات الحية. وفي الواقع ربما بعض من حياتهم ، حتى. في عام 2002 ، قامت IBM ببيع 2300 جهاز رئيسي. في عام 2013 نمت إلى 2700 المركزية. هذا هو 2700 من مبيعات الحاسبات الكبيرة في عام واحد في عام 2013. لم أستطع الحصول على بيانات دقيقة في عام 2015 لكنني أتخيل أنها تقترب بسرعة من 3000 وحدة تم بيعها سنويًا في عام 2015 ، 2013. وأتطلع إلى أن أتمكن من تأكيد ذلك.

مع إصدار Z13 ، التكرار الثالث عشر لمنصة حاسب مركزي ، والذي أعتقد أنه كلفهم حوالي 1.2 أو 1.3 مليار دولار لتطويره من الصفر ، آي بي إم ، هنا ، آلة تبدو وتشعر مثل أي كتلة أخرى لدينا اليوم ، ويدير أصلا Hadoop و Spark. ويمكن بالتأكيد أن تكون متصلاً من التحليلات الأخرى وأدوات البيانات الكبيرة أو أن تكون متصلاً دائمًا بأحد مجموعات Hadoop الحالية أو الجديدة. لدي هذا الرأي القائل بأن تضمين النظام الأساسي في استراتيجية البيانات الضخمة أمر لا بد منه. من الواضح ، إذا كان لديك واحدة ، لديك الكثير من البيانات وتريد معرفة كيفية الحصول عليها هناك. ويتم تركهم لجمع الغبار بعدة طرق ، عقليا وعاطفيا بقدر ما يذهب عالم الأعمال ، لكنهم موجودون هنا للبقاء.

يجب أن تكون التوصيلات والواجهات لجميع أدوات التحليل الخاصة بك للبيانات المستضافة بواسطة أجهزة الكمبيوتر المركزية جزءًا رئيسيًا من مؤسستك وخاصة خطط البيانات الضخمة للحكومة. ودائمًا ما يلاحظهم البرنامج الآن ، حيث يلقون نظرة جيدة عليهم ويدركون ما بداخل هذه الأشياء ويصلون العقول التي تبدأ في الحصول على القليل من البصيرة والشعور بالرضا عما يحدث بالفعل تحت الغطاء. ومع ذلك ، سأسلم زميلي العزيز ، الدكتور روبن بلور ، وسوف يضيف إلى تلك الرحلة الصغيرة. روبن ، خذها بعيدا.

روبن بلور: حسنًا ، شكرًا لك. حسنًا ، منذ أن غنت Dez أغنية المركزية ، سأذهب إلى ما أعتقد أنه يحدث من حيث عالم الحاسوب القديم القديم وعالم Hadoop الجديد. أعتقد أن السؤال الكبير هنا هو ، كيف تدير كل هذه البيانات؟ ليس في رأيي أن الحاسوب الرئيسي يتعرض للتحدي فيما يتعلق بقدراته الضخمة على البيانات - فقدرة البيانات الضخمة للغاية ، كما أشار ديز ، فإنه قادر للغاية. في الواقع الفعلي يمكنك وضع مجموعات Hadoop على ذلك. حيث يتم تحديها من حيث نظامها البيئي وسأقوم بتفصيل ذلك.

وإليك بعض المواقع المركزية. لها تكلفة دخول مرتفعة وما حدث بالفعل في الماضي ، منذ منتصف التسعينات عندما بدأت شعبية الحواشي الرئيسية في الانخفاض ، تميل إلى فقدها نهايتها المنخفضة ، أولئك الأشخاص الذين اشتروا حواسب كبيرة رخيصة ولم يكن حقا اقتصادية خاصة لهؤلاء الناس. لكن في الواقع ، في الواقع في المدى المتوسط ​​والعالي من الحاسوب المركزي ، كان لا يزال في الواقع ، وبشكل واضح في الحقيقة ، حوسبة غير مكلفة بشكل لا يصدق.

لقد قيل أنه تم إنقاذه بواسطة Linux لأن Linux الذي تم تنفيذه على حاسب مركزي جعل من الممكن بالطبع تشغيل جميع تطبيقات Linux. ذهب الكثير من تطبيقات Linux إلى هناك قبل أن تكون البيانات الضخمة كلمة أو كلمتين أفترضهما. إنها في الواقع منصة ممتازة إلى حد ما للسحابة الخاصة. بسبب ذلك ، يمكنه المشاركة في عمليات النشر السحابية المختلطة. واحدة من المشاكل هي أن المهارات المركزية هي في نقص. إن مهارات أجهزة الكمبيوتر المركزية الموجودة هي في الواقع تقدم في العمر ، بمعنى أن الناس يتركون هذه الصناعة للتقاعد سنة بعد سنة ، ويتم استبدالهم فقط من حيث عدد الأشخاص. هذه مشكلة. لكنه لا يزال هو الحوسبة غير مكلفة.

المنطقة التي تم تحديها فيها هي بالطبع كل شيء Hadoop. هذه صورة لدوغ كتينغ مع فيل Hadoop الأصلي. النظام البيئي Hadoop هو - وسيبقى - النظام البيئي المهيمن على البيانات الكبيرة. إنه يوفر مقياسًا أفضل مما يمكن أن يحققه الجهاز المركزي بالفعل وهو أقل تكلفة كمخزن بيانات على المدى الطويل. النظام البيئي Hadoop يتطور. إن أفضل طريقة للتفكير في هذا الأمر هي ذات مرة نظام أساسي خاص بالأجهزة وبيئة التشغيل به هي المهيمنة ، ثم يصبح النظام الإيكولوجي حيًا. وحدث ذلك مع حاسب IBM الرئيسي. حسنًا ، حدث لاحقًا مع Digital VAX ، وحدث مع خوادم Sun ، وحدث مع Windows ، وحدث مع Linux.

وما حدث هو أن Hadoop ، التي أفكر فيها دائمًا ، أو أحب أن أفكر فيها ، كنوع من البيئة الموزعة للبيانات ، يتطور النظام الإيكولوجي بمعدل لا يصدق. أعني إذا ذكرت فقط المساهمات العجيبة المختلفة التي هي المصادر المفتوحة ، Spark ، Flink ، Kafka ، Presto ، ثم قمت بإضافة إلى بعض قواعد البيانات ، قدرات NoSQL و SQL الموجودة الآن على Hadoop. Hadoop هو النظام البيئي الأكثر نشاطًا الموجود فعليًا ، وبالتأكيد في مجال الحوسبة المؤسسية. ولكن إذا كنت ترغب في التعامل معها كقاعدة بيانات ، فإنها لا تحمل أي مقارنة في الوقت الحالي مع ما أميل إلى التفكير به كقواعد بيانات حقيقية ، لا سيما في مساحة مستودع البيانات. وهذا يفسر إلى حد ما نجاح عدد من قواعد بيانات NoSQL الكبيرة التي لا تعمل على Hadoop مثل CouchDB وما إلى ذلك.

وباعتبارها بحيرة بيانات ، فإن لديها نظامًا بيئيًا أكثر ثراءً من أي نظام أساسي آخر ولن يتم ترحيله من ذلك. نظامها البيئي ليس مجرد نظام بيئي مفتوح المصدر. يوجد الآن عدد كبير من أعضاء البرامج الذين لديهم منتجات تم تصميمها بشكل أساسي لـ Hadoop أو تم استيرادها إلى Hadoop. وقد أنشأوا للتو نظامًا بيئيًا لا يوجد فيه أي شيء يمكن أن ينافسه من حيث اتساعه. وهذا يعني حقًا أنها أصبحت منصة ابتكار البيانات الضخمة. لكن في رأيي ، لا يزال غير ناضج ويمكن أن نجري مناقشات طويلة حول ما هو وما لا ينضج ، من الناحية العملية ، مع Hadoop لكنني أعتقد أن معظم الناس الذين ينظرون إلى هذا المجال بالذات يدركون تمامًا أن Hadoop متأخرة لعقود من الزمن عن الحاسوب الرئيسي من حيث القدرة التشغيلية.

بحيرة البيانات المتطورة. بحيرة البيانات هي عبارة عن منصة بأي تعريف وإذا كنت تعتقد أن هناك طبقة بيانات في حوسبة الشركات الآن فمن السهل للغاية التفكير فيها من حيث قواعد البيانات الثابتة بالإضافة إلى بحيرة البيانات التي تشكل طبقة البيانات. تطبيقات بحيرة البيانات كثيرة ومتنوعة. لديّ رسم تخطيطي هنا يتطرق إلى مختلف البيانات المثيرة للجدل التي يجب القيام بها إذا كنت تستخدم Hadoop كمنطقة انطلاق أو Hadoop و Spark كمنطقة انطلاق. وستحصل على كل شيء - نسب البيانات ، وتطهير البيانات ، وإدارة البيانات الوصفية ، واكتشاف البيانات الوصفية - يمكن استخدامه في ETL نفسها ، لكن غالبًا ما يتطلب من ETL إدخال البيانات. إدارة البيانات الرئيسية ، وتعريفات الأعمال للبيانات ، وإدارة الخدمات ما يحدث في Hadoop ، وإدارة دورة حياة البيانات ، و ETL من Hadoop ، وكذلك لديك تطبيقات تحليلية مباشرة يمكنك تشغيلها على Hadoop.

ولهذا السبب أصبحت قوية للغاية وحيث تم تنفيذه وتنفيذه بنجاح ، عادة ما يكون لديه على الأقل مجموعة من هذه الأنواع من التطبيقات التي تعمل عليها. ومعظم هذه التطبيقات ، خاصة تلك التي أطلعت عليها ، ليست متوفرة على الكمبيوتر الرئيسي الآن. ولكن يمكنك تشغيلها على المركزية ، على كتلة Hadoop التي كانت تعمل في قسم المركزية.

بحيرة البيانات أصبحت ، في رأيي ، منطقة التدريج الطبيعي لتحليلات قاعدة البيانات السريعة و BI. يصبح المكان الذي تأخذ فيه البيانات ، سواء كانت بيانات الشركة أو البيانات الخارجية ، فوضى معها حتى ، كما يقول ، نظيفة بما يكفي لاستخدامها وهيكلها جيدًا للاستخدام ثم تقوم بنقلها. وكل هذا لا يزال في مهده.

في رأيي ، فكرة التعايش بين الحاسوب المركزي / الهدوب ، أول شيء هو أن الشركات الكبيرة من غير المرجح أن تتخلى عن المركزية. في الواقع ، تشير الدلائل التي رأيتها مؤخرًا إلى وجود زيادة في الاستثمار في أجهزة الكمبيوتر المركزية. لكنهم لن يتجاهلوا نظام Hadoop البيئي أيضًا. أرى أن 60٪ من الشركات الكبيرة تستخدم Hadoop حتى لو كان الكثير منها في الواقع مجرد نماذج أولية وتجربة.

اللغز إذن هو "كيف تجعل هذين الأمرين يتعايشان؟" لأنهما سيحتاجان إلى مشاركة البيانات. البيانات التي يتم إحضارها إلى بحيرة البيانات يحتاجون إلى نقلها إلى المركزية. قد تحتاج البيانات الموجودة على الحاسوب المركزي إلى الانتقال إلى بحيرة البيانات أو عبر بحيرة البيانات من أجل الانضمام إلى البيانات الأخرى. وهذا سوف يحدث. وهذا يعني أنه يتطلب سرعة نقل البيانات / ETL القدرة. من غير المحتمل أن تتم مشاركة أحمال العمل بشكل ديناميكي ، دعنا نقول ، بيئة المركزية أو مع شيء في بيئة Hadoop. ستكون بيانات مشتركة. وغالبًا ما تتواجد غالبية البيانات على Hadoop ببساطة لأنها النظام الأساسي الأقل تكلفة لها. ومن المحتمل أن تتواجد المعالجة التحليلية الشاملة هناك أيضًا.

باختصار ، نحتاج في النهاية إلى التفكير فيما يتعلق بطبقة بيانات الشركة ، والتي ستشمل بالنسبة للعديد من الشركات الحاسوب الرئيسي. وتحتاج طبقة البيانات هذه إلى إدارة استباقية. وإلا فإن الاثنين لن تتعايش جيدًا. يمكنني تمرير الكرة إليك اريك.

إريك كافانا: مرة أخرى ، لقد جعلتك Tendü مقدم العرض ، فاخذه.

تيندو يوغورتشو: شكراً يا إريك. أشكركم على استضافتي. أهلا بالجميع. سأتحدث عن تجربة Syncsort مع العملاء فيما يتعلق بكيفية رؤيتنا للبيانات كأصل في المؤسسة من المستوى الرئيسي إلى البيانات الكبيرة على منصات التحليلات. وآمل أن يكون لدينا وقت أيضًا في نهاية الجلسة لطرح أسئلة من الجمهور لأن هذا هو الجزء الأكثر قيمة في عمليات البث عبر الإنترنت هذه.

للأشخاص الذين لا يعرفون ما يفعله Syncsort ، تعد Syncsort شركة برمجيات. لقد كنا في الواقع أكثر من 40 عاما. بدأت على الجانب المركزي وتمتد منتجاتنا من المركزية إلى يونيكس إلى منصات البيانات الكبيرة ، بما في ذلك Hadoop ، Spark ، Splunk ، سواء في المقدمة أو في السحابة. ينصب تركيزنا دائمًا على منتجات البيانات ومعالجة البيانات وتكامل البيانات.

كانت استراتيجيتنا فيما يتعلق بالبيانات الضخمة و Hadoop حقًا جزءًا من النظام البيئي منذ اليوم الأول. بوصفنا مالكين للبائعين الذين يركزون حقًا على معالجة البيانات باستخدام محركات خفيفة الوزن للغاية ، فقد اعتقدنا أن هناك فرصة كبيرة للمشاركة في Hadoop لتصبح منصة لمعالجة البيانات وأن تكون جزءًا من بنية مستودع بيانات الجيل التالي للمؤسسة. لقد كنا مساهمًا في مشاريع Apache مفتوحة المصدر منذ عام 2011 ، بدءًا من MapReduce. لقد كانت في المراكز العشرة الأولى في Hadoop الإصدار 2 ، وشاركت فعليًا في مشاريع متعددة أيضًا بما في ذلك حزم Spark ، يتم نشر بعض موصلاتنا في حزم Spark.

نحن نستفيد من محرك معالجة البيانات خفيف الوزن للغاية لدينا والذي يعتمد على ملفات التعريف بالكامل ، ويستقر بشكل جيد مع أنظمة الملفات الموزعة مثل Hadoop Distributed File System. ونستفيد من تراثنا على أجهزة الكمبيوتر المركزية وخبراتنا في الخوارزميات عندما نعرض منتجات البيانات الكبيرة الخاصة بنا. ونحن نشارك عن كثب مع البائعين الرئيسيين ، اللاعبين الرئيسيين هنا بما في ذلك Hortonworks ، Cloudera ، MapR ، Splunk. أعلنت Hortonworks مؤخرًا أنها ستقوم بإعادة بيع منتجاتنا إلى ETL على متن Hadoop. مع Dell و Cloudera لدينا شراكة وثيقة جدًا تعيد بيع منتج ETL كجزء من أجهزتها الكبيرة للبيانات. ومع Splunk بالفعل ، ننشر بيانات القياس عن بُعد والحماية المركزية في لوحات معلومات Splunk. لدينا شراكة وثيقة.

ما هو في ذهن كل مدير تنفيذي على مستوى C؟ إنها حقًا ، "كيف يمكنني الاستفادة من أصول البيانات الخاصة بي؟" يتحدث الجميع عن البيانات الضخمة. الجميع يتحدث عن Hadoop ، Spark ، منصة الكمبيوتر التالية التي قد تساعدني في خلق خفة حركة في العمل وفتح تطبيقات تحويلية جديدة. فرص جديدة للذهاب إلى السوق. يفكر كل مسؤول تنفيذي واحد ، "ما هي استراتيجية البيانات الخاصة بي ، وما هي مبادرة البيانات الخاصة بي ، وكيف أتأكد من أنني لا أبقى وراء منافسي ، وما زلت في هذا السوق في السنوات الثلاث المقبلة؟" انظر إلى هذا بينما نتحدث إلى عملائنا ، كما نتحدث إلى قاعدة عملائنا العالمية ، وهي كبيرة جدًا ، كما يمكنك أن تتخيل ، لأننا كنا في الجوار لفترة من الوقت.

بينما نتحدث مع كل هذه المنظمات ، نرى أيضًا هذا في كومة التقنية في الخلل الذي حدث مع Hadoop. إنه حقًا لتلبية هذا الطلب على البيانات كأصل. الاستفادة من جميع أصول البيانات لدى المنظمة. وقد شهدنا تطور بنية مستودع بيانات المؤسسة بحيث أصبح Hadoop الآن محورًا جديدًا لهندسة البيانات الحديثة. ومعظم عملائنا ، سواء كانت خدمات مالية ، سواء كانت تأمينًا ، أو شركة بيع بالتجزئة ، فإن المبادرات عادةً ما نجد أن Hadoop كخدمة أو بيانات كخدمة. لأن الجميع يحاولون إتاحة أصول البيانات لعملائهم الخارجيين أو العملاء الداخليين. وفي بعض المؤسسات ، نرى مبادرات مثل سوق بيانات تقريبًا لعملائها.

وأحد الخطوات الأولى لتحقيق ذلك كله من إنشاء مركز بيانات للمؤسسة. في بعض الأحيان سوف يطلق عليها الناس بحيرة بيانات. إن إنشاء مركز بيانات المؤسسة هذا في الواقع ليس سهلاً كما يبدو لأنه يتطلب حقًا الوصول إلى أي بيانات في المؤسسة وجمعها تقريبًا. وهذه البيانات هي الآن من جميع المصادر الجديدة مثل أجهزة الاستشعار المحمولة وكذلك قواعد البيانات القديمة وهي في وضع الدُفعات وفي وضع الدفق. كان تكامل البيانات دائمًا يمثل تحديًا ، مع وجود عدد من مصادر البيانات وتنوعها وأنماط التسليم المختلفة ، سواء أكانت دفعية أو متدفقة في الوقت الفعلي ، بل أصبح الأمر أكثر صعوبة الآن مقارنة بخمس سنوات مضت ، منذ عشر سنوات مضت. نشير إليه أحيانًا على أنه "لم يعد ETL لوالدك".

لذلك نحن نتحدث عن أصول البيانات المختلفة. نظرًا لأن المؤسسات تحاول فهم البيانات الجديدة أو البيانات التي تجمعها من الأجهزة المحمولة ، سواء كانت المستشعرات في الشركة المصنعة للسيارة أو بيانات المستخدم الخاصة بشركة ألعاب المحمول ، فغالبًا ما تحتاج إلى الرجوع إلى أكثر أصول البيانات أهمية في المؤسسة ، والتي هي معلومات العميل ، على سبيل المثال. غالبًا ما تعيش أصول البيانات الأكثر أهمية على الحاسوب المركزي. ربط بيانات المركزية مع هذه المصادر الجديدة الناشئة ، التي يتم جمعها في السحابة ، والتي يتم جمعها عبر الهاتف المحمول ، والتي يتم جمعها على خط التصنيع لشركة سيارات يابانية ، أو تطبيقات إنترنت الأشياء ، يجب أن تفهم هذه البيانات الجديدة من خلال الرجوع إلى مجموعات البيانات القديمة الخاصة بها. وغالبًا ما تكون مجموعات البيانات القديمة هذه على المركزية.

وإذا كانت هذه الشركات غير قادرة على القيام بذلك ، فلن تكون قادرة على الاستفادة من البيانات المركزية ثم هناك فرصة ضائعة. ثم البيانات كخدمة ، أو الاستفادة من جميع بيانات المؤسسة لا تستغل حقًا الأصول الأكثر أهمية في المؤسسة. يوجد أيضًا جزء بيانات القياس عن بُعد والأمان لأن جميع بيانات المعاملات تقريبًا تعيش على الحاسوب المركزي.

تخيل أنك ذاهب إلى جهاز الصراف الآلي ، وأعتقد أن أحد الحاضرين أرسل رسالة إلى المشاركين هنا لحماية النظام المصرفي ، عندما تقوم بتمرير بطاقتك بأن بيانات المعاملات موجودة عالميًا إلى حد كبير على الحاسوب المركزي. وتأمين وجمع بيانات الأمان وبيانات القياس عن بُعد من أجهزة الكمبيوتر المركزية وإتاحة تلك البيانات من خلال لوحات بيانات Splunk أو غيرها ، أصبح Spark، SQL أكثر أهمية الآن من أي وقت مضى ، بسبب حجم البيانات وتنوع البيانات.

مجموعات المهارة هي واحدة من أكبر التحديات. نظرًا لأن لديك مجموعة كبيرة من البيانات الكبيرة سريعة التغير ، فأنت لا تعرف المشروع الذي سيبقى على قيد الحياة ، والمشروع الذي لن ينجو ، هل يجب أن أوظف مطوري Hive أو Pig؟ هل يجب علي الاستثمار في MapReduce أو Spark؟ أو الشيء التالي ، فلنك ، قال أحدهم. هل يجب علي الاستثمار في أحد منصات الكمبيوتر هذه؟ من ناحية ، تعد مواكبة النظام البيئي المتغير بسرعة تحديًا ، ومن ناحية أخرى لديك مصادر البيانات القديمة هذه. مجموعات المهارات الجديدة غير متطابقة بالفعل وقد تواجه مشكلة لأن هذه الموارد قد تتقاعد بالفعل. هناك فجوة كبيرة فيما يتعلق بمجموعات المهارات للأشخاص الذين يفهمون مكدسات البيانات القديمة والذين يفهمون مكدس التكنولوجيا الناشئة.

التحدي الثاني هو الحكم. عندما تقوم حقًا بالوصول إلى جميع بيانات المؤسسة عبر الأنظمة الأساسية ، فلدينا عملاء أثاروا مخاوف من ذلك ، "لا أريد أن تنخفض بياناتي. لا أريد نسخ بياناتي في أماكن متعددة لأنني أريد تجنب النسخ المتعددة قدر الإمكان. أريد أن أحصل على وصول من طرف إلى طرف دون الهبوط في المنتصف هناك. "يصبح التحكم في هذه البيانات تحديًا. والجزء الآخر هو أنه إذا كنت تقوم بالوصول إلى البيانات التي تعترض سبيل الاختناقات ، وإذا كنت تقوم بجمع معظم البيانات الخاصة بك في السحابة والوصول إلى البيانات القديمة والمرجعية ، يصبح عرض النطاق الترددي للشبكة مشكلة ، نظام أساسي للكتلة. هناك العديد من التحديات من حيث وجود مبادرة البيانات الكبيرة ومنصات التحليل المتقدمة هذه مع الاستفادة من جميع بيانات المؤسسة.

ما هي عروض Syncsort ، يشار إليها على أنها "الأفضل ببساطة" ليس لأننا ببساطة الأفضل ولكن عملائنا يشيرون إلينا على أنهم ببساطة الأفضل في الوصول إلى بيانات الإطار الرئيسي وتكاملها. نحن ندعم جميع تنسيقات البيانات من المركزية ونجعلها متاحة لتحليلات البيانات الكبيرة. سواء كان ذلك على Hadoop أو Spark أو منصة الكمبيوتر التالية. لأن منتجاتنا تعزل حقًا تعقيدات نظام الكمبيوتر. أنت ، كمطور ، من المحتمل أن تقوم بالتطوير على جهاز كمبيوتر محمول ، وتركز على خط أنابيب البيانات وما هي تحضيرات البيانات ، والخطوات اللازمة لإنشاء هذه البيانات للتحليلات ، والمرحلة التالية ، واتخاذ نفس التطبيق في MapReduce أو أخذ ذلك نفس التطبيق في جميع أنحاء سبارك.

ساعدنا عملائنا على فعل ذلك عندما أصبح YARN متاحًا وكان عليهم نقل تطبيقاتهم من الإصدار 1 من MapReduce إلى YARN. نحن نساعدهم على فعل الشيء نفسه مع Apache Spark. يتم تشغيل منتجنا ، الإصدار الجديد 9 مع Spark وكذلك يأتي مع تحسين ديناميكي من شأنه أن يعزل هذه التطبيقات لأطر الكمبيوتر المستقبلية.

لذلك لدينا إمكانية الوصول إلى البيانات المركزية ، سواء كانت ملفات VSAM ، سواء كانت DB2 ، أو ما إذا كانت بيانات القياس عن بُعد ، مثل سجلات SMF أو Log4j أو syslogs ، التي تحتاج إلى تصور من خلال لوحات بيانات Splunk. وأثناء القيام بذلك ، نظرًا لأن المؤسسة يمكنها الاستفادة من مهندس مهاراتهم الحالي أو مجموعات مهارات ETL ، يتم تقليل وقت التطوير بشكل كبير. في الواقع مع Dell و Cloudera ، كان هناك معيار مستقل برعاية ، وركز هذا المعيار على وقت التطوير الذي يستغرقه إذا كنت تقوم بإجراء الترميز اليدوي أو باستخدام أدوات أخرى مثل Syncsort ، وكان هناك حوالي 60 ، 70 بالمائة في وقت التطوير . سد الفجوة يحدد المهارات عبر المجموعات ، عبر مضيفي ملفات البيانات ، وكذلك مضيفات ملفات البيانات هذه من حيث الأشخاص.

عادةً لا يتحدث فريق البيانات الضخم ، أو فريق استيعاب البيانات ، أو الفريق المكلف بتطوير هذه البيانات كهيكل خدمة ، بالضرورة مع فريق أجهزة الكمبيوتر المركزية. إنهم يريدون تقليل هذا التفاعل في العديد من المنظمات تقريبًا. من خلال سد هذه الفجوة ، تقدمنا. والجزء الأكثر أهمية هو حقا تأمين العملية برمتها. لأنه في المؤسسة عندما تتعامل مع هذا النوع من البيانات الحساسة ، هناك العديد من المتطلبات.

في صناعات عالية التنظيم مثل التأمين والمصرفية يسألها عملاؤنا ، قالوا: "أنت تقدم هذا الوصول إلى البيانات المركزية وهذا شيء عظيم. هل يمكنك أيضًا أن تقدم لي عمل تنسيق السجلات هذا المشفر بواسطة EBCDIC في نسقه الأصلي حتى أتمكن من تلبية متطلبات التدقيق الخاصة بي؟ "لذا ، نجعل Hadoop و Apache Spark يفهمان بيانات حاسب مركزي. يمكنك الاحتفاظ بالبيانات في تنسيق السجل الأصلي ، والقيام ببرنامج الكمبيوتر الخاص بك للمعالجة والمستويات ، وإذا كنت بحاجة إلى إعادة ذلك ، يمكنك إظهار أن السجل لم يتغير ولم يتم تغيير تنسيق السجل ، يمكنك الامتثال للمتطلبات التنظيمية .

ومعظم المؤسسات ، لأنها تقوم بإنشاء مركز البيانات أو بحيرة البيانات ، فإنها تحاول أيضًا القيام بذلك بنقرة واحدة لتتمكن من تعيين بيانات التعريف من مئات المخططات في قاعدة بيانات Oracle إلى Hive tables أو ORC أو Parquet files يصبح ضروريا. نحن نشحن الأدوات ونوفر أدوات لجعل هذا الوصول إلى البيانات في خطوة واحدة ، ومهام الإنشاء التلقائي أو حركة البيانات ، ومهام الإنشاء التلقائي لإجراء مناظرة البيانات.

تحدثنا عن جزء الاتصال ، والامتثال ، والحوكمة ومعالجة البيانات. تتوفر منتجاتنا في الفرضية وفي السحابة ، الأمر الذي يجعلها بسيطة للغاية حقًا لأن الشركات لا تحتاج إلى التفكير فيما سيحدث في العام أو العامين المقبلين إذا قررت الذهاب تمامًا في السحابة العامة مقابل الهجينة البيئة ، لأن بعض المجموعات قد تعمل على فرضية أو في السحابة. وتتوفر منتجاتنا في كل من Amazon Marketplace و EC2 و Elastic MapReduce وأيضًا في حاوية Docker.

لمجرد الانتهاء من ذلك ، لذلك لدينا ما يكفي من الوقت للأسئلة والأجوبة ، إنه يتعلق حقًا بالوصول إلى حوكمة البيانات ودمجها والامتثال لها ، مع جعل ذلك كله أكثر بساطة. وبينما نجعل هذا الأمر أكثر بساطة ، "صُمِّم مرة واحدة وانتشر في أي مكان" بالمعنى الحقيقي بسبب مساهماتنا المفتوحة المصدر ، فإن منتجنا يعمل أصلاً في تدفق بيانات Hadoop وبالأصل مع Spark ، مما يعزل المؤسسات عن النظام البيئي المتغير بسرعة. وتوفير خط أنابيب واحد للبيانات ، واجهة واحدة ، لكل من الدُفعات والتدفق.

وهذا يساعد أيضًا المؤسسات في بعض الأحيان على تقييم هذه الأُطُر ، لأنك قد ترغب في إنشاء تطبيقات بالفعل وتشغيلها فقط على MapReduce مقابل Spark وترى بنفسك ، نعم ، لدى Spark هذا الوعد ويوفر كل التقدم في الخوارزميات التكرارية التي تعمل من أجل تعلم الآلة بشكل أفضل تعمل تطبيقات التحليلات والتنبؤات مع Spark ، هل يمكنني أيضًا القيام بأعباء العمل المتدفقة والدُفعية على إطار الكمبيوتر هذا؟ يمكنك اختبار منصات كمبيوتر مختلفة باستخدام منتجاتنا. والتحسين الديناميكي سواء كنت تعمل على خادم مستقل ، على جهاز الكمبيوتر المحمول ، في Google Cloud مقابل Apache Spark ، هو بالفعل اقتراح ذو قيمة كبيرة لعملائنا. وكانت مدفوعة حقًا بالتحديات التي واجهوها.

سأغطي فقط إحدى دراسات الحالة. هذه هي شركة الجارديان للتأمين على الحياة. وكانت مبادرة الجارديان هي في الواقع مركزية أصول البيانات الخاصة بها وجعلها متاحة لعملائها ، وتقليل وقت إعداد البيانات ، وقالوا إن الجميع يتحدثون عن إعداد البيانات مع أخذ 80 في المائة من إجمالي خط أنابيب معالجة البيانات ، وقالوا إن الأمر في الواقع يستغرق حوالي 75 إلى 80 في المئة بالنسبة لهم ، وأرادوا تقليل إعداد البيانات ، وأوقات التحول ، والوقت للسوق لمشاريع التحليلات. أنشئ هذه السرعة لأنها تضيف مصادر بيانات جديدة. وجعل هذا الوصول إلى البيانات المركزية متاحًا لجميع عملائها.

حلهم ، بما في ذلك منتجات Syncsort ، هو الآن لديهم سوق بيانات يشبه Amazon Marketplace تدعمه بحيرة بيانات ، والتي هي أساسًا Hadoop ، وقاعدة بيانات NoSQL. وهم يستخدمون منتجاتنا لجلب جميع أصول البيانات إلى بحيرة البيانات ، بما في ذلك DB2 على أجهزة الكمبيوتر المركزية ، بما في ذلك ملفات VSAM على أجهزة الكمبيوتر المركزية ومصادر البيانات القديمة لقاعدة البيانات وكذلك مصادر البيانات الجديدة. وكنتيجة لذلك قاموا بتركيز أصول البيانات القابلة لإعادة الاستخدام والتي يمكن البحث عنها ومتاحة لعملائها. وهم قادرون حقًا على إضافة مصادر البيانات الجديدة وخدمة عملائهم بشكل أسرع وأكثر كفاءة من ذي قبل. ومبادرات التحليلات تتقدم أكثر في الجانب التنبئي أيضًا. لذلك سوف أتوقف مؤقتًا وآمل أن يكون هذا مفيدًا ، وإذا كان لديك أي أسئلة بالنسبة لي حول أي من الموضوعات ذات الصلة ، من فضلك ، أهلاً وسهلاً بكم.

إريك كافاناغ: بالتأكيد ، وتندو ، سألقي تعليقًا واحدًا. تلقيت تعليقًا من أحد أعضاء الجمهور قائلًا ، "أعجبني هذا" التصميم مرة واحدة ، وانتشر في أي مكان ". هل يمكنك نوع من البحث في مدى صحة ذلك؟ أعني ، ماذا فعلت لتمكين هذا النوع من الرشاقة وهل هناك أي ضريبة؟ مثل عندما نتحدث عن المحاكاة الافتراضية ، على سبيل المثال ، هناك دائمًا بعض الضريبة على الأداء. بعض الناس يقولون اثنين في المئة ، خمسة في المئة 10 في المئة. ما الذي قمت به من أجل تمكين التصميم مرة واحدة ، ونشره في أي مكان - كيف يمكنك القيام بذلك وهل هناك أي ضريبة مرتبطة به من حيث الأداء؟

تيندو يوغورتشو: بالتأكيد ، شكرا لك. لا ، لأنه على عكس بعض البائعين الآخرين ، فإننا لا ننشئ Hive أو Pig أو بعض الكودات الأخرى غير الأصلية لمحركاتنا. هذا هو المكان الذي لعبت فيه مساهماتنا مفتوحة المصدر دورًا كبيرًا ، لأننا نعمل مع بائعي Hadoop و Cloudera و Hortonworks و MapR عن كثب وبسبب مساهماتنا المفتوحة المصدر ، يعمل محركنا في الواقع كجزء من التدفق ، كجزء من تدفق Hadoop ، كجزء من شرارة.

ما يترجم أيضًا ، لدينا هذا التحسين الديناميكي. كان هذا شيئًا نتيجة لتحدي عملائنا بأطر الكمبيوتر. عندما كانوا في طور الإنتاج مع بعض التطبيقات ، عادوا ، قالوا: "أنا فقط أقوم بتثبيت مجموعة Hadoop الخاصة بي ، واستقر في MapReduce YARN الإصدار 2 ، MapReduce الإصدار 2 ، ويتحدث الناس عن أن MapReduce قد مات ، Spark هو الشيء التالي ، وبعض الناس يقولون إن Flink سيكون الشيء التالي ، كيف سأتعامل مع هذا؟ "

وتلك التحديات أصبحت واضحة للغاية بالنسبة لنا ، لقد استثمرنا في الحصول على هذا التحسين الديناميكي الذي نشير إليه على أنه تنفيذ ذكي. في وقت التشغيل ، عندما يتم إرسال المهمة ، عند إرسال خط أنابيب البيانات هذا ، استنادًا إلى المجموعة ، سواء كان ذلك Spark ، سواء كان MapReduce أو خادم Linux مستقل ، فإننا نقرر كيفية تشغيل هذه المهمة ، أصلاً في محركنا ، كجزء من ذلك Hadoop أو شرارة تدفق البيانات. لا يوجد أي نفقات عامة لأن كل شيء يتم من خلال هذا التحسين الديناميكي لدينا وكل شيء يتم أيضًا لأن محركنا مدمج أصلاً بسبب مساهماتنا مفتوحة المصدر. هل هذا الجواب على سؤالك؟

إريك كافانا: نعم ، هذا جيد. وأريد طرح سؤال آخر هناك ، ثم Dez ، ربما سنقوم بإحضارك وروبن أيضًا. لقد تلقيت تعليقًا مرحًا من أحد الحاضرين لدينا. سوف أقرأها لأنها في الحقيقة شديدة الضيق. يكتب ، "يبدو أنه في تاريخ الأشياء HOT" - احصل عليه؟ مثل IoT - "هو أنه كلما حاولت" تبسيط "شيء معقد حقًا ، وفي أكثر الأحيان أبسط مما يبدو في فعل الأشياء ، يتم توفير المزيد من حبل معلق. فكر في الاستعلام عن قاعدة البيانات ، والانفجار ، والترابط المتعدد ، وما إلى ذلك. "هل يمكنك التعليق على هذه المفارقة التي يشير إليها؟ البساطة مقابل التعقيد ، وبشكل أساسي ما الذي يحدث بالفعل تحت الأغطية؟

تيندو يوغورتشو: بالتأكيد. أعتقد أن هذه نقطة صحيحة للغاية. عندما تقوم بتبسيط الأشياء والقيام بهذه التحسينات ، بطريقة ما تحت الأغطية ، يحتاج شخص ما إلى أن يأخذ هذا التعقيد لما يجب أن يحدث ، أليس كذلك؟ إذا كنت تشل شيئًا ما أو إذا كنت تقرر كيفية إدارة وظيفة معينة فيما يتعلق بإطار عمل الكمبيوتر ، فمن الواضح أن هناك جزءًا من المهمة يتم دفعها سواء كان ذلك في نهاية المستخدم أو ترميز القائمة أو في تحسين المحرك. هناك جزء من ذلك ، من خلال تبسيط تجربة المستخدم ، هناك فائدة كبيرة من حيث القدرة على الاستفادة من مجموعات المهارات الموجودة في المشروع.

ويمكنك التخفيف من هذا التناقض نوعًا ما ، وتخفيف هذا التحدي المتمثل في "نعم ، لكن ليس لدي سيطرة على كل ما يحدث تحت الغطاء ، تحت غطاء محرك السيارة في ذلك المحرك" ، من خلال تعريض الأشياء للمستخدمين الأكثر تقدماً إذا كانوا تريد أن يكون هذا النوع من السيطرة. عن طريق الاستثمار في بعض أنواع خدمات الأشياء. القدرة على تقديم المزيد من البيانات الوصفية التشغيلية ، والمزيد من البيانات التشغيلية ، كما في المثال الذي أعطاه هذا الحضور ، لاستعلام SQL وكذلك مع تشغيل المحرك. آمل أن يجيب.

إريك كافانا: نعم هذا جيد. ديز ، خذها بعيدا.

Dez Blanchfield: أنا حريص حقًا على الحصول على مزيد من التبصر حول بصمتك في المساهمات مفتوحة المصدر والرحلة التي أخذتها من تجربتك التقليدية الطويلة الأمد في أجهزة الكمبيوتر المركزية وعالم الملكية ومن ثم التحول إلى المساهمة في المصدر المفتوح وكيف حدث ذلك. والأمر الآخر الذي أحرص على فهمه هو الرأي الذي تراه أن الشركات ، وليس فقط أقسام تكنولوجيا المعلومات ، ولكن الشركات تأخذ الآن فيما يتعلق بمراكز البيانات أو بحيرات البيانات كما يقول الناس الآن وما إذا كانوا يرون هذا الاتجاه مجرد بحيرة بيانات واحدة موحدة أو ما إذا كنا نشاهد بحيرات البيانات الموزعة والأشخاص يستخدمون الأدوات لتجميعها؟

تيندو يوغورتشو: بالتأكيد. لأول مرة ، كانت تلك رحلة ممتعة للغاية ، كشركة برمجيات مالكة ، واحدة من أولى الشركات بعد IBM. ومع ذلك ، مرة أخرى ، بدأ كل شيء مع عملائنا المبشرين الذين ينظرون إلى Hadoop. كان لدينا شركات بيانات مثل ComScore ، كانت واحدة من أوائل الشركات التي تتبنى Hadoop لأنها كانت تجمع البيانات الرقمية في جميع أنحاء العالم ولم تكن قادرة على الاحتفاظ ببيانات لمدة 90 يومًا إلا إذا استثمرت صندوق تخزين بيانات بقيمة عشرة ملايين دولار في بيئة. بدأوا النظر في Hadoop. مع ذلك بدأنا أيضًا النظر في Hadoop.

وعندما اتخذنا قرارًا واعترفنا بأن Hadoop ستكون حقًا منصة البيانات للمستقبل ، توصلنا أيضًا إلى أننا لن نكون قادرين على لعب هذه اللعبة ، وهي لعبة ناجحة في هذا ، إلا إذا كنا كانت جزءا من النظام البيئي. وكنا نعمل عن كثب مع بائعي Hadoop ، مع Cloudera و Hortonworks و MapR ، وما إلى ذلك. لقد بدأنا نتحدث معهم حقًا لأن الشراكة أصبحت مهمة جدًا للتحقق من القيمة التي يمكن أن يحققها البائع وتتأكد أيضًا من إمكانية مشاركتنا في المشروع وتقديم شيء أكثر وضوحا. لقد تطلب الأمر الكثير من بناء العلاقات لأننا لم نكن نعرف لمشاريع Apache مفتوحة المصدر ، ولكن كان لدينا دعم كبير من هؤلاء الباعة Hadoop ، يجب أن أقول.

لقد بدأنا العمل معًا ونظرنا إلى المحور ، وكيف يمكننا تحقيق القيمة دون حتى برنامج المالك الخاص بنا في الفضاء. كان هذا مهمًا. لا يقتصر الأمر على وضع بعض واجهات برمجة التطبيقات التي يمكن أن يعمل عليها المنتج الخاص بك ، بل ستكون قادرًا على القول إنني سأستثمر في ذلك لأنني أعتقد أن Hadoop ستكون منصة للمستقبل ، لذلك من خلال الاستثمار في المصادر التي أردنا أن نجعلها تأكد من نضوجها وتصبح جاهزة للمؤسسات. يمكننا في الواقع تمكين بعض حالات الاستخدام التي لم تكن متاحة قبل مساهماتنا. سيفيد ذلك النظام الإيكولوجي بأكمله ويمكننا تطوير هذه الشراكات عن كثب.

استغرق الأمر الكثير من الوقت. بدأنا المساهمة في 2011 و 2013 ، 21 كانون الثاني (يناير) - أتذكر التاريخ لأن ذلك التاريخ كان قد تم فيه تقديم أكبر مساهماتنا مما يعني أنه يمكننا الآن توفير منتجاتنا بشكل عام من تلك المرحلة فصاعدًا - لقد استغرق الأمر بعض الوقت لتطوير تلك العلاقات ، أظهر القيمة ، يصبح الشركاء شركاء في التصميم مع البائعين ومع الملتزمون في مجتمع المصادر المفتوحة. كان هناك الكثير من المرح. لقد كان مجزيا للغاية كشركة لنا أن نكون جزءًا من هذا النظام الإيكولوجي وأن نطور شراكة عظيمة.

السؤال الثاني حول مركز البيانات / بحيرة البيانات ، أعتقد أنه عندما نرى هذه البيانات بمثابة تنفيذ خدمة في معظم الحالات ، نعم ، قد تكون مجموعات أو مجموعات مفردة فعليًا أو متعددة ، ولكنها أكثر تصوريًا من أن تصبح ذلك المكان الوحيد لجميع البيانات. نظرًا لأننا نرى في بعض المؤسسات عمليات نشر كبيرة للمجموعات على فرضية ، إلا أنها تحتوي أيضًا على مجموعات ، على سبيل المثال ، في السحابة العامة لأن بعض البيانات التي يتم جمعها من أقسام على الإنترنت يتم الاحتفاظ بها بالفعل في السحابة. إنها القدرة على امتلاك خط أنابيب بيانات واحد يمكنك فعلياً الاستفادة منه ، واستخدامها كمحور بيانات فردي ، بحيرة بيانات واحدة ، تصبح مهمة. ليس بالضرورة المكان المادي فحسب ، بل أعتقد أن وجود مركز البيانات وبحيرة البيانات هذه عبر مجموعات ، وربما عبر مناطق جغرافية وربما على فرضية وسحابة ، سيكون أمرًا بالغ الأهمية. لا سيما المضي قدما. بدأنا هذا العام في رؤية المزيد والمزيد من عمليات النشر السحابية. شيء مذهل. في النصف الأول من هذا العام حتى الآن رأينا الكثير من عمليات النشر السحابية.

إريك كافانا: حسناً ، رائع. وروبين ، هل لديك أي أسئلة؟ أعلم أن لدينا بضع دقائق فقط.

روبن بلور: حسنًا ، حسنًا ، يمكنني أن أطرح عليها سؤالًا. أول ما حدث لي هو أنه كان هناك الكثير من الإثارة حول كافكا وكنت مهتمًا برأيك حول كافكا وكيف تتكامل مع الطريقة التي يستخدمها الناس كافكا؟

تيندو يوغورتشو: بالتأكيد. نعم ، أصبحت كافكا تحظى بشعبية كبيرة. بين عملائنا ، نرى أن هذا النوع من طبقة نقل البيانات ورأينا أن البيانات عبارة عن حافلة ، إلى حد كبير. على سبيل المثال ، كان أحد عملائنا يستخدم نوعًا من البيانات المستهلكة التي يتم دفعها إلى هذا التطبيق "كافكا" بين العديد من المستخدمين ، مثل آلاف المستخدمين عبر الإنترنت والقدرة على تصنيف ذلك والمتابعة.

مرة أخرى ، تعتبر كافكا حافلة بيانات للمستهلكين المختلفين لهذه البيانات. صنّف بعض المستخدمين المتقدمين مقابل المستخدمين غير المتقدمين وافعل شيئًا مختلفًا للمضي قدمًا في خط أنابيب البيانات هذا. كيف ندمج مع Kafka هو في الأساس ، يصبح منتجنا DMX-h مستهلكًا موثوقًا به ، مستهلكًا فعالًا وموثوقًا بكافكا. يمكنه قراءة البيانات وهذا لا يختلف عن قراءة البيانات من أي مصدر بيانات آخر لنا. نعطي المستخدمين القدرة على التحكم في النافذة سواء من حيث متطلبات الوقت التي لديهم أو عدد الرسائل التي قد يستهلكونها من حافلة كافكا. وبعد ذلك يمكننا أيضًا إثراء تلك البيانات لأنها تمر بمنتجنا وتعود إلى كافكا. لقد اختبرنا هذا. قمنا بتقييمه في موقع العميل. مصدقة من قبل كونفلوينت. نحن نعمل عن كثب مع شباب كونفلوينت وهو عالي الأداء وسهل الاستخدام. مرة أخرى ، هناك واجهات برمجة التطبيقات تتغير ولكن لا داعي للقلق لأن المنتج يتعامل مع ذلك بالفعل كمصدر بيانات آخر ، وهو مصدر بيانات متدفق. إنه لأمر ممتع للغاية العمل مع منتجاتنا وكافكا ، في الواقع.

روبن بلور: حسنًا ، لدي سؤال آخر وهو مجرد سؤال من مسائل العمل العامة ، لكنني عرفت Syncsort منذ فترة طويلة وكنت دائمًا تتمتع بسمعة طيبة وسلمت برنامجًا سريعًا للغاية من أجل ETL والعالم الرئيسي. هل هي القضية التي يتم نقل معظم عملك الآن إلى Hadoop؟ هل هي الحالة التي قمت بها بطريقة أو بأخرى بنشر عملك بشكل كبير من عالم الحاسوب الرئيسي؟

Tendü Yogurtçu: لا تزال منتجاتنا المركزية تعمل بنسبة 50 في المائة من أجهزة الكمبيوتر المركزية على مستوى العالم. لذلك لدينا خط إنتاج قوي للغاية بالإضافة إلى ما نقوم به على البيانات الضخمة ونهاية Hadoop. وما زلنا في معظم مشاريع تبسيط تكنولوجيا المعلومات أو تحسينها لأن هناك نهاية واحدة ترغب في أن تكون قادرًا على الاستفادة منها في بيانات الإطار الرئيسي في منصات Multex للبيانات الكبيرة والاستفادة من جميع بيانات المؤسسة ، ومع ذلك توجد أيضًا أعباء عمل معاملات بالغة الأهمية التي لا تزال تعمل على أجهزة الكمبيوتر المركزية ونقدم لهؤلاء العملاء طرقًا لجعل هذه التطبيقات أكثر فاعلية ، وتشغيلها في محرك zIIP حتى لا يستهلكوا الكثير من دورات المعالجة و MIPS ، مما يجعلها فعالة من حيث التكلفة.

نستمر في الاستثمار في منتجات حاسب مركزي ونلعب في الواقع في هذا الفضاء حيث ينتقل الناس من الحديد الكبير إلى البيانات الكبيرة ويمتد خط الإنتاج أيضًا عبر تلك المنصات. لذلك نحن لا نقوم بالضرورة بتحويل الأعمال بالكامل إلى جانب واحد ، فنحن لا نزال نمتلك أعمالًا ناجحة جدًا على كلا الجانبين. والاستحواذات هي تركيز كبير بالنسبة لنا كذلك. نظرًا لتطور مساحة إدارة البيانات ومعالجة البيانات لمنصات البيانات الكبيرة ، فإننا ملتزمون أيضًا بإجراء عدد قليل من عمليات الاستحواذ المجانية.

روبن بلور: حسنًا ، أعتقد أنني لا أستطيع أن أسألك عما هي لأنك لن يُسمح لك بإخباري. أنا مهتم بما إذا كنت قد رأيت العديد من تطبيقات Hadoop أو Spark بالفعل على الحاسوب المركزي أو ما إذا كان هذا أمرًا نادرًا للغاية.

تيندو يوغورتشو: لم نر أي. هناك المزيد من الأسئلة حول ذلك. أعتقد أن Hadoop على الحاسوب المركزي لم يكن له معنى كبير بسبب نوع البنية الأساسية. ومع ذلك ، فإن Spark on the mainframe لها مغزى كبير ، Spark حقًا جيدة جدًا من خلال التعلم الآلي والتحليلات التنبؤية والقدرة على امتلاك بعض تلك التطبيقات مع بيانات حاسب مركزي هي في الحقيقة ذات مغزى. لم نر أي شخص يفعل ذلك حتى الآن ، ومع ذلك فهو في الواقع حالة الاستخدام التي تقود هذه الأشياء. إذا كانت حالة الاستخدام الخاصة بك كشركة تعمل على جلب البيانات المركزية بشكل أكبر وتكاملها مع بقية مجموعات البيانات في منصة البيانات الكبيرة ، فهذه قصة واحدة. يتطلب الوصول إلى بيانات حاسب مركزي من منصة Multex للبيانات الكبيرة لأنك من غير المحتمل أن تحضر مجموعات البيانات الخاصة بك من الأنظمة المفتوحة وتعيد الاتصال بالكمبيوتر الرئيسي. ومع ذلك ، إذا كان لديك بعض بيانات الإطار الرئيسي التي ترغب في استكشافها واستكشاف القليل من استكشاف البيانات ، وتطبيق بعض الذكاء المتقدم والتحليلات المتقدمة ، فقد يكون Spark وسيلة جيدة للذهاب إلى هذا الجهاز والعرض به.

إريك كافانا: وإليك سؤال آخر من الجمهور ، في الواقع سؤالان آخران. سأقدم لك سؤالًا حول فريق العلامات ، ثم سنختتم. يسأل أحد الحضور: "هل تقوم شركة IBM بدمج مساهماتك مفتوحة المصدر في نظامها السحابي العام ، وبمعنى آخر ، Bluemix؟" ، وقد قدم أحد الحضور نقطة جيدة حقًا ، مشيرًا إلى أن Syncsort يعد أمرًا رائعًا للحفاظ على الحديد الكبير على قيد الحياة لأولئك الذين لديك بالفعل هذا ، ولكن إذا تخلت الشركات عن حواسب رئيسية جديدة لصالح ما يسميه CE ، فستتراجع عن كل شيء ، فمن المحتمل أن تنخفض ، لكن تلاحظ أن اللاعبين جيدون حقًا في نقل البيانات عن طريق تجاوز أنظمة التشغيل حتى غيغابايت في الثانية. هل يمكنك التحدث عن قوتك الأساسية ، كما ذكر ، وما إذا كانت شركة IBM تقوم بدمج أغراضك في Bluemix أم لا؟

Tendü Yogurtçu: مع IBM ، نحن بالفعل شركاء مع IBM وناقشنا خدمات سحابة البيانات الخاصة بهم التي تقدم المنتج. مساهماتنا مفتوحة المصدر مفتوحة لكل من يريد الاستفادة منها. تتوفر بعض توصيلات أجهزة الكمبيوتر المركزية أيضًا في حزم Spark ، وبالتالي ليس فقط في IBM. يمكن لأي شخص الاستفادة من تلك. في Bluemix لم نقم بأي شيء على وجه التحديد حتى الآن. وهل تمانع في تكرار السؤال الثاني؟

إريك كافاناغ: نعم ، كان السؤال الثاني يتعلق بمجال وظائفك الأساسي على مر السنين ، والذي كان يتعامل مع اختناقات ETL ومن الواضح أن هذا شيء ما زلتم تقومون به يا رفاق كصاحبة كبيرة ، حسناً ، نظرياً تبقى بعيداً ، على الرغم من أن Dez's النقطة لا تزال نوعا من الهزاز والمتداول هناك. لكن الحضور لاحظوا أن Syncsort جيد جدًا في نقل البيانات عن طريق تجاوز أنظمة التشغيل وتصل إلى غيغا بايت في الثانية. يمكنك فقط التعليق على ذلك؟

Tendü Yogurtçu: نعم ، لقد كانت الكفاءة الكلية للموارد حقًا وقدرتنا على التوسع والأداء كانت قوتنا. نحن لا نساوم ، وتبسيط له العديد من المعاني ، ونحن لا نساوم من تلك. عندما بدأ الناس يتحدثون عن Hadoop في عام 2014 ، على سبيل المثال ، لم تكن العديد من المنظمات تبحث في الواقع عن الأداء في البداية. كانوا يقولون ، "أوه ، إذا حدث شيء ما ، يمكنني إضافة عقدتين أخريين وسأكون بخير ، والأداء ليس مطلبي."

بينما كنا نتحدث عن الحصول على أفضل أداء لأننا كنا نعمل أصلاً ، لم نكن حتى نحصل على بعض الفواق الأولية التي كانت لدى Hive مع العديد من وظائف MapReduce والنفقات العامة ببدء تشغيلها. كان الناس يخبروننا ، "أوه ، هذا ليس قلقي ، لا تقلق بشأن ذلك في الوقت الحالي."

عندما وصلنا إلى عام 2015 ، تغير هذا المشهد لأن بعض عملائنا تجاوزوا بالفعل المساحة التخزينية التي لديهم في مجموعات الإنتاج الخاصة بهم. أصبح من الأهمية بمكان بالنسبة لهم لمعرفة ما يمكن أن تقدمه Syncsort. إذا كنت تأخذ بعض البيانات من قاعدة بيانات أو حاسب مركزي وتكتب في تنسيق النيابة العامة في الكتل ، سواء كنت تهبط وتنفذ وتحول آخر أو تفعل تحويل الطيران وتنسيق الملف المستهدف ، فقد أحدثت فرقًا لأنك تحفظ من تخزين ، أنت تقوم بحفظ من عرض النطاق الترددي للشبكة ، أنت تقوم بحفظ من عبء العمل على الكتلة لأنك لا تعمل وظائف إضافية. يبدو أن هذه القوة التي نلعبها من حيث كوننا واعين للغاية ، نشعر بالكفاءة في استخدام الموارد تحت بشرتنا.

هكذا نصفها. إنه أمر بالغ الأهمية بالنسبة لنا. نحن لا نعتبر ذلك أمرا مفروغا منه. لم نأخذ ذلك أبداً كأمر مسلم به ، لذا سنستمر في أن نكون أقوياء مع هذا النفوذ في Apache Spark أو في إطار الكمبيوتر التالي. سوف تستمر في أن يكون تركيزنا. وفيما يتعلق بقطعة نقل البيانات وقطعة الوصول إلى البيانات ، فمن المؤكد أنها واحدة من نقاط قوتنا ونحن نصل إلى بيانات DB2 أو VSAM على أجهزة الكمبيوتر المركزية في سياق Hadoop أو Spark.

إريك كافانا: حسنًا ، هذه طريقة رائعة لإنهاء البث على الويب. شكرا جزيلا على وقتك والاهتمام. شكرًا لك ، Tendü و Syncsort ، على قدومك إلى غرفة الإحاطة والدخول في الجولة ، كما يقولون. الكثير من الأسئلة الرائعة من الجمهور. إنها بيئة دائمة الحركة هناك ، أيها الناس. سنقوم بأرشفة هذا Hot Tech كما نفعل مع الآخرين. يمكنك أن تجدنا في insideanalysis.com و techopedia.com. عادة ما ترتفع في حوالي يوم واحد. ومع ذلك ، سنقدم لك وداعًا أيها الناس. شكرا جزيلا لك. سنتحدث معك قريبا اعتن بنفسك. مع السلامة.

حديد كبير ، تلبية البيانات الكبيرة: تحرير البيانات المركزية مع hadoop والشرارة