بيت قواعد بيانات قوة الاقتراح: كيف يمكن لفهرس البيانات تمكين المحللين

قوة الاقتراح: كيف يمكن لفهرس البيانات تمكين المحللين

Anonim

بواسطة Techopedia Staff ، 22 يونيو 2016

الوجبات الجاهزة: يناقش المضيف ريبيكا جوزويك مزايا كتالوجات البيانات مع ديز بلانشفيلد وروبن بلور وديفيد كراوفورد.

يجب عليك التسجيل لهذا الحدث لعرض الفيديو. سجل لمشاهدة الفيديو.

ريبيكا جوزويك: سيداتي وسادتي ، مرحباً ومرحباً بكم في Hot Technologies لعام 2016. واليوم لدينا ، "قوة الاقتراح: كيف يُمكِّن كتالوج البيانات المحللين". أنا مضيفك ريبيكا جوزويك ، ملئ مضيفنا المعتاد إريك كافاناغ اليوم ، بينما كان يسافر حول العالم ، لذلك شكرا لك على الانضمام إلينا. هذا العام حار ، ليس حارًا فقط في تكساس حيث أنا ، لكن الجو حار في كل مكان. هناك انفجار في جميع أنواع التقنيات الجديدة القادمة. لدينا إنترنت الأشياء ، وتدفق البيانات ، واعتماد السحابة ، Hadoop لا يزال ينضج واعتماده. لدينا الأتمتة ، والتعلم الآلي ، وكل هذه الأشياء هي بطبيعة الحال التي أكدتها البيانات. وأصبحت الشركات أكثر وأكثر البيانات مدفوعة اليوم. وبالطبع ، فإن الهدف من ذلك هو الوصول إلى المعرفة والاكتشاف ، كما تعلمون ، اتخاذ قرارات أفضل. ولكن للحصول على أكبر قيمة من البيانات ، يجب أن يكون الوصول إليها سهلاً. إذا أبقتها مغلقة ، أو مدفونة ، أو في عقول عدد قليل من الأشخاص داخل المؤسسة ، فلن يكون ذلك مفيدًا للمؤسسة ككل.

وكنت أفكر نوعًا ما في فهرسة البيانات والتفكير في مسار المكتبات ، حيث كنت قد ذهبت منذ فترة طويلة إذا كنت بحاجة إلى البحث عن شيء ما ، أو إذا كنت بحاجة للبحث في موضوع ما ، أو البحث عن بعض المعلومات ، فذهبت إلى المكتبة وبالطبع ذهبت إلى كتالوج البطاقات ، أو سيدة كرابي التي عملت هناك. لكن كان من الممتع أيضًا أن تتجول ، إذا كنت تريد فقط أن تنظر ، وبالتأكيد أنك قد تكتشف شيئًا أنيقًا ، فقد تكتشف بعض الحقائق المثيرة للاهتمام التي لم تكن تعرفها ، ولكن إذا كنت بحاجة حقًا إلى معرفة شيء ما. ، وكنت على دراية بما كنت تبحث عنه ، فأنت بحاجة إلى كتالوج البطاقات ، وبالطبع فإن ما يعادل المؤسسة هو كتالوج بيانات ، يمكن أن يساعد في تسليط الضوء على جميع البيانات التي يمكن لمستخدمينا إثرائها واكتشافها ومشاركتها واستهلاكها والمساعدة فعلاً يحصل الناس على البيانات بشكل أسرع وأسهل.

لذلك لدينا اليوم ديز بلانشفيلد ، عالم البيانات الخاص بنا ، ولدينا الدكتور روبن بلور ، كبير المحللين لدينا ، لدينا ديفيد كراوفورد من ألشن ، الذي سيتحدث عن قصة فهرسة بيانات شركته ، ولكن أولاً نحن ذاهبون للتقدم مع Dez. Dez ، أنا أمرر الكرة إليك والأرض لك.

ديز بلانشفيلد: شكرًا لك ، شكرًا على استضافتي اليوم. هذه مسألة أنا مهتم بها للغاية ، لأن كل مؤسسة تقابلها في عملي اليومي تقريبًا ، أجد نفس المشكلة التي تحدثنا عنها بإيجاز شديد في المزاح السابق للعرض ، وهذا هو ذلك تحتوي معظم المؤسسات التي تعمل في الأعمال التجارية منذ أكثر من بضع سنوات على عدد كبير من البيانات المدفونة في جميع أنحاء المؤسسة ، وأشكال مختلفة ، وفي الحقيقة لدي عملاء لديهم مجموعات بيانات تعود إلى Lotus Notes ، وهي قواعد بيانات لا تزال تعمل في بعض حالات مثل شبكات الاتصال الزائفة الخاصة بهم ، وهم جميعًا يواجهون هذا التحدي المتمثل في العثور فعليًا على مكان بياناتهم ، وكيفية الوصول إليها ، ومن الذي يوفر الوصول إليها ، ومتى توفر الوصول إليها ، وكيفية فقط الكتالوج ، وكيفية توصيله إلى مكان حيث يمكن للجميع: أ) أن يكون على دراية بما هو موجود وما هو فيه ، و B) ، وكيفية الوصول إليه واستخدامه. وأحد أكبر التحديات بالطبع هو العثور عليها ، والتحدي الكبير الآخر هو معرفة ما يوجد هناك وكيفية الوصول إليه.

قد أعلم جيدًا أن لدي عشرات من قواعد البيانات ، لكنني لا أعرف في الواقع ما هو موجود هناك أو كيف يمكنني معرفة ما هو موجود هناك ، وهكذا دائمًا كما نكتشف الآن في البيانات السابقة للعرض ، أنت تميل للتجول في المكتب وطرح الأسئلة ، والصراخ عبر الجدران التكعيبية ومحاولة معرفة ذلك ، غالباً ما تكون تجربتي ، قد تجد أنك تجول في مكتب الاستقبال ، الاستقبال ، وتسأل ما إذا كان أي شخص يعرف من أنت ذاهب للذهاب الحديث إلى. في كثير من الأحيان ، ليس من قوم تقنية المعلومات دائمًا لأنهم غير مدركين لمجموعة البيانات لأن شخصًا ما أنشأها للتو ، وقد يكون شيئًا بسيطًا مثل: - في كثير من الأحيان سنجد مشروعًا من نوع ما يقف في بيئة تكنولوجيا المعلومات و استخدم مدير المشروع جدول بيانات يحتوي على جميع الأشياء ، وقد حصل على قدر هائل من المعلومات القيمة حول الأصول والسياق والأسماء ، وما لم تعرف ذلك المشروع وأنت تعرف ذلك الشخص ، فلن تتمكن من العثور على هذه المعلومات. إنه غير متوفر فقط ، وعليك الحصول على هذا الملف الأصلي.

هناك عبارة تم مزاحتها فيما يتعلق بالبيانات ولا أوافق عليها بالضرورة ، لكنني أعتقد أنها عبارة عن إلقاء صغير لطيف وهذا هو أن بعض الأشخاص يعتقدون أن البيانات هي النفط الجديد ، وأنا بالتأكيد سوف نغطي ذلك في بعض الجوانب أيضًا ، في وقت لاحق اليوم. لكن ما لاحظته ، وبالتأكيد جزء من هذا التحول ، هو أن مؤسسات الأعمال التي تعلمت تقييم بياناتها اكتسبت ميزة كبيرة على منافسيها.

كانت هناك ورقة مثيرة للاهتمام من قبل IBM ، منذ حوالي خمس أو ست سنوات ، وقاموا باستطلاع حوالي 4000 شركة هنا في أستراليا ، وأخذوا جميع المعلومات ، وجميع بيانات الأداء ، وجميع البيانات المالية ووضعوها في وعاء الغليان ثم أرسلتها إلى الكلية الأسترالية للاقتصاد ، وبدأت بالفعل اتجاهًا شائعًا هنا ، وكانت تلك الشركات التي استفادت من التكنولوجيا قد اكتسبت دائمًا مثل هذه الميزة التنافسية على أقرانها ومنافسيها في حد ذاتها ، حتى أن منافسيها لم يلحقوا أبدًا بالركب ، وأعتقد هذا هو الحال الآن مع البيانات التي رأيناها فيما يسمونه الأشخاص بتحول رقمي حيث تعرفت المؤسسات بوضوح على كيفية العثور على البيانات التي بحوزتها ، ولتوفير تلك البيانات ، وجعلها متاحة بطريقة سهلة للغاية ارتقي إلى المنظمة ، دون أن تعرف دائمًا سبب احتياج المنظمة إليها ، واكتسب ميزة كبيرة على المنافسين.

لدي بضعة أمثلة على هذه الشريحة ، والتي يمكنك رؤيتها. خطي الأول هو ، هو أن الانقطاع على نطاق واسع في جميع قطاعات الصناعة تقريبًا ، من وجهة نظري ، هو الدافع وراء البيانات ، وإذا كانت الاتجاهات الحالية لا يزال عليها شيء ، فإن وجهة نظري هي أننا قد حصلنا للتو على حق فقط بدأت لأنه عندما تستيقظ العلامات التجارية الطويلة الأمد أخيرًا على ما يعنيه هذا وتدخل اللعبة ، ستدخل اللعبة في الجملة. عندما يبدأ نوع من تجار التجزئة الرئيسيين الذين يمتلكون سلسلة من البيانات في تطبيق بعض التحليلات التاريخية على البيانات ، إذا كانوا يعرفون أنها موجودة ، فإن بعض اللاعبين عبر الإنترنت سيحصلون على بعض الاستيقاظ.

ولكن مع العديد من معظم هذه العلامات التجارية ، أقصد أن لدينا أوبر أكبر شركة سيارات أجرة في العالم. لا يملكون أي سيارة أجرة ، فما الذي يجعلها سحرية ، ما هي بياناتهم؟ Airbnb ، أكبر مزود للسكن ، لدينا WeChat ، أكبر شركة للهواتف في العالم ، لكن ليس لديهم بنية تحتية فعلية ، ولا توجد هواتف ، ولا خطوط هاتف. علي بابا ، أكبر تاجر تجزئة على هذا الكوكب ، لكنهم لا يمتلكون أي مخزون. فيسبوك ، أكبر شركة إعلامية في العالم. أعتقد في العدد الأخير أن لديهم 1.4 مليار مستخدم نشط للبيانات الآن ، وهو رقم محير للعقل. إنه ليس بالقرب من أي مكان - أعتقد أن شخصًا ما ادعى أن ربع الكوكب موجود فعليًا كل يوم ، ومع ذلك ، فهناك مزود محتوى لا يقوم في الواقع بإنشاء المحتوى ، وجميع البيانات التي يقدمونها لم يتم إنشاؤها من قبلهم ، بل تم إنشاؤها من قبل المشتركين ، ونحن جميعا نعرف هذا النموذج.

SocietyOne ، التي ربما تكون قد سمعت عنها أو لا تعرفها ، هي علامة تجارية محلية ، وأعتقد في اثنين من البلدان أنه بنك يقوم بالفعل بإقراض نظير إلى نظير ، وبعبارة أخرى ، ليس لديه أموال. كل ما تفعله هو أنها تدير المعاملات والبيانات الموجودة تحتها. نتفلياكس ، نحن جميعًا على دراية بذلك. هناك مثيرة للاهتمام بطانة واحدة هنا. عندما كانت Netflix قادرة قانونيًا على الاستخدام في أستراليا ، وعندما تم الإعلان عنها رسميًا ، لم يكن عليك استخدام VPN للوصول إليها ، يميل كثير من الناس حول العالم إلى ذلك - إذا لم تتمكن من الوصول إليها في منطقتك المحلية - عندما تم إطلاق Netfix في أستراليا ، زاد عرض النطاق الترددي الدولي على روابط الإنترنت الخاصة بنا بنسبة 40 في المائة ، لذا ضاعف استخدام الإنترنت في أستراليا بين عشية وضحاها تقريبًا ، من خلال تطبيق واحد فقط ، تطبيق واحد مستضاف من مجموعة النظراء لا يفعل شيئًا سوى اللعب مع البيانات. إنها مجرد إحصائيات محيرة للعقل.

وبالطبع ، نحن جميعًا على دراية بـ Apple و Google ، لكن هذه هي أكبر شركات البرمجيات على هذا الكوكب ، لكنها لا تكتب التطبيقات فعليًا. ما هو الشيء المتسق مع كل هذه المنظمات؟ حسنًا ، إنها بيانات ، ولم تصل إلى هناك لأنهم لم يعرفوا أين كانت بياناتهم ، ولم يعرفوا كيفية فهرستها.

ما نجده الآن هو أن هناك فئة أصول جديدة بالكامل يشار إليها على أنها بيانات ، والشركات تستيقظ منها. لكنهم لا يمتلكون دائمًا الأدوات والدراية الفنية وما إلى ذلك من أجل تعيين كل تلك البيانات ، لفهرسة جميع تلك البيانات وإتاحتها ، لكننا وجدنا أن الشركات التي لا تمتلك أصولًا فعلية تقريبًا قد اكتسبت قيمة سوقية عالية في تسجيل الوقت عبر فئة الأصول البيانات الجديدة. كما قلت ، فإن بعض اللاعبين القدامى يستيقظون الآن على هذا الأمر ويخرجونه بالتأكيد.

أنا من أشد المعجبين بأخذ قوم في رحلة ، لذا في الثمانين عامًا ، وأواخر ثمانية عشر ، وستكون أكثر من دراية بهذا في سوق الولايات المتحدة ، اتضح أنه لإجراء تعداد سكاني في كل عام أو نحو ذلك ، أعتقد أنهم أداروهما كل عشر سنوات في تلك المرحلة ، لكن إذا كنت ستجري إحصاءًا كل عام ، فقد يستغرق الأمر ما يصل إلى ثماني أو تسع سنوات لإجراء تحليل البيانات بالفعل. اتضح أن مجموعة البيانات هذه ثم تركت في صناديق في أماكن في الورق ، ولم يتمكن أحد من العثور عليها. لقد استمروا في ضخ هذه التقارير ، لكن البيانات الفعلية كانت صعبة للغاية للوصول إليها ، لدينا وضع مشابه مع لحظة أخرى مهمة في العالم ، في فترة الأربعينيات من القرن الماضي ، مع الحرب العالمية الثانية ، وهذا الشيء هو Bletchley Park Bombe مكتوبة BOMBE وكانت أداة تحليلية هائلة للأعداد والتي ستخضع لمجموعات البيانات الصغيرة وتجد إشارات بها ، وتستخدم للمساعدة في كسر الرموز من خلال لغز.

هذا الشيء مرة أخرى ، كان بشكل أساسي جهازًا مصممًا ، ليس كثيرًا للفهرسة ، بل لوضع علامات على البيانات وتعيينها ، وتمكين أخذ النماذج والعثور عليها داخل مجموعات البيانات ، وفي هذه الحالة ، فك الرموز ، والعثور على المفاتيح والعبارات والعثور على لهم بانتظام في مجموعات البيانات ، ولذا فقد مررنا في هذه الرحلة للعثور على الأشياء في البيانات ، والرائدة نحو فهرسة البيانات.

ثم جاءت هذه الأشياء معًا ، هذه الآلات الضخمة ذات التكلفة المنخفضة ، والآلات الجاهزة فقط. وفعلنا بعض الأشياء المثيرة للاهتمام ، وأحد الأشياء التي قمنا بها معهم هي أننا قمنا ببناء مجموعات منخفضة التكلفة للغاية والتي يمكن أن تبدأ في فهرسة الكوكب ، وهذه العلامات التجارية الكبرى الشهيرة التي جاءت وتذهب ، ولكن من المحتمل أن يكون Google هو موطن Google الأكثر شيوعًا. العلامة التجارية التي سمعناها جميعًا - لقد أصبحت فعلًا حقيقيًا ، وأنت تعلم أنك ناجح عندما تصبح علامتك التجارية فعلًا. ولكن ما علمته Google ، دون إدراكه ، ربما في عالم الأعمال ، هو أنها تمكنت من فهرسة الكوكب بأكمله إلى مستوى معين ، وفهرسة البيانات الموجودة في جميع أنحاء العالم ، وإتاحتها بطريقة سهلة للغاية ، نموذج مناسب في صيغة صغيرة جدًا مكونة من سطر واحد ، وصفحة ويب لا تحتوي على أي شيء تقريبًا ، وتكتب في استفسارك ، وتذهب وتجدها لأنها قد زحفت الكوكب بالفعل وفهرستها وجعلتها متاحة بسهولة.

وما لاحظناه هو ، "حسنًا ، لا نقوم بهذا في المنظمات - لماذا هذا؟ لماذا لدينا مؤسسة يمكنها تعيين الكوكب بأكمله وفهرسته ، والزحف إليه ، وفهرسته ، وإتاحته ، يمكننا البحث عنه ، ثم النقر فوق الشيء الذي نذهب إليه والعثور عليه ، كيف نأتي لم تفعل ذلك داخليًا؟ "إذن هناك الكثير من هذه الأرفف الصغيرة من الآلات الموجودة في جميع أنحاء العالم التي تفعل ذلك الآن للإنترانت والعثور على الأشياء ، لكنها ما زالت في الحقيقة تستوعب فكرة تجاوز الشبكة التقليدية الصفحة ، أو خادم الملفات.

بدلاً من إدخال هذا الجيل التالي من كتالوج البيانات بعدة طرق ، فإن اكتشاف الوصول إلى البيانات عبر الملاحظات اللاحقة ومحادثات مبردات المياه لم يعد حقًا طريقة مناسبة لاكتشاف البيانات وفهرستها بعد الآن ، وفي الحقيقة ، لا أعتقد ذلك أبدًا كان حقا. لم يعد بإمكاننا قيادة هذا التحدي برمته للأشخاص الذين يمررون الملاحظات وينشرون الملاحظات ويتحدثون عنها. لقد تجاوزنا هذا المجال وأصبحنا حقًا في هذا المجال حيث أصبح نهج الجيل التالي من فهرسة البيانات قد انتهى. علينا أن نحصل على أسلحتنا حوله. إذا كانت هذه مشكلة سهلة ، لكنا قد حللناها من قبل بطرق عديدة في وقت سابق ، لكنني أعتقد أنها ليست مشكلة سهلة ، مجرد فهرسة واستدعاء البيانات هو جزء واحد فقط منه ، ومعرفة ما يوجد في البيانات و بناء البيانات الوصفية حول ما نكتشفه ، ثم جعله متاحًا في شكل سهل الاستهلاك ، لا سيما للخدمة الذاتية والتحليلات. ما زالت هناك مشكلة يتم حلها ، لكن العديد من أجزاء اللغز خلال خمس سنوات يتم حلها بشكل جيد ومتاح بالفعل.

كما نعلم ، فهرسة بيانات البشر هي وصفة للفشل لأن الخطأ البشري هو أحد أعظم الكوابيس التي نتعامل معها في معالجة البيانات ، وأنا أتحدث بانتظام عن هذا الموضوع ، حيث أرى أن البشر الذين يملأون النماذج الورقية ربما يكونون أكبر كابوس نحن نتعامل مع البيانات والتحليلات الضخمة ، ونضطر دائمًا إلى إصلاح الأشياء التي يقومون بها ، حتى إلى أشياء بسيطة مثل التواريخ والحقول ، والأشخاص الذين يضعونها في تنسيق خاطئ.

ولكن كما قلت ، لقد رأينا محركات البحث على الإنترنت تقوم بفهرسة العالم كل يوم ، لذلك نحن الآن نصل إلى فكرة أنه يمكن القيام بذلك على مجموعات بيانات الأعمال في عملية الاكتشاف ، والأدوات والأنظمة الآن متاح بسهولة لأنك على وشك التعلم اليوم. لذلك فإن الخدعة ، في رأيي ، هي اختيار الأدوات المناسبة ، وأفضل الأدوات لهذا المنصب. والأهم من ذلك ، العثور على الجزء الصحيح منه لمساعدتك على البدء في هذا المسار. وأعتقد أننا سنسمع عن ذلك اليوم ، ولكن قبل أن نفعل ذلك ، سأنتقل إلى كليتي ، روبن بلور ، وسماع مقالته حول هذا الموضوع. روبن ، هل يمكنني المرور لك؟

روبن بلور: نعم ، بالتأكيد يمكنك ذلك. دعونا نرى ما اذا كان هذا يعمل ، أوه نعم يعمل. حسنًا ، أنا قادم من اتجاه مختلف عن Dez حقًا ، لكنني سأنتهي في نفس المكان. يتعلق الأمر بالاتصال بالبيانات ، لذلك اعتقدت أنني سأنظر في حقيقة الاتصال بالبيانات ، نقطة تلو الأخرى حقًا.

هناك حقيقة أن البيانات مجزأة أكثر مما كانت عليه في أي وقت مضى. حجم البيانات ينمو بشكل هائل ، ولكن في الواقع الفعلي ، فإن مصادر البيانات المختلفة تنمو أيضًا بمعدل لا يصدق ، وبالتالي أصبحت البيانات مجزأة بشكل متزايد في كل وقت. ولكن بسبب تطبيقات التحليل على وجه الخصوص - ولكن هذه ليست التطبيقات الوحيدة - لدينا سبب وجيه حقًا للاتصال بجميع هذه البيانات ، لذلك نحن عالقون في مكان صعب ، فنحن عالقون في عالم من البيانات المجزأة ، وهناك فرصة في البيانات كما كان يطلق عليها Dez ، النفط الجديد.

حول البيانات ، حسنا ، كانت تستخدم للعيش على القرص الدوار ، إما في أنظمة الملفات أو قواعد البيانات. الآن يعيش في بيئة أكثر تنوعًا ، يعيش في أنظمة الملفات ولكنه يعيش أيضًا في حالات Hadoop في الوقت الحاضر ، أو حتى في حالات Spark. أنه يعيش في أنواع متعددة من قاعدة البيانات. منذ وقت ليس ببعيد ، قمنا نوعًا ما من قاعدة البيانات الترابطية الموحدة ، كما تعلمون ، لقد خرجت من النافذة في السنوات الخمس الماضية ، لأن هناك حاجة لقواعد بيانات المستندات ، وهناك حاجة لقواعد بيانات الرسم البياني ، لذلك تعلم أن اللعبة لديها تغير. لذلك عاش على قرص الغزل ، لكنه يعيش الآن على SSD. أحدث كمية من SSD - بالتأكيد أحدث وحدة SSD تخرج من سامسونج - عشرين غيغابايت ، وهي ضخمة. الآن تعيش في الذاكرة ، بمعنى أن النسخة الأولى من البيانات يمكن أن تكون في الذاكرة ، وليس على القرص ، لم نكن نستخدم أنظمة مثل هذه ؛ نحن نفعل الآن. ويعيش في السحابة. مما يعني أنه يمكن أن يعيش في أي من هذه الأشياء ، في السحابة ، لن تعرف بالضرورة مكان وجودها في السحابة ، سيكون لديك عنوانه فقط.

لمجرد الوصول إلى هذه النقطة ، فشلت Hadoop حتى الآن ، كمخزن بيانات قابل للتوسيع. كنا نتمنى أن يصبح مخزن بيانات قابل للتوسيع ، وسيصبح نظام ملفات واحدًا لكل شيء ، وسيظهر ذلك - ستظهر أقواس قزح في السماء ، وأساسًا ، وكان يوحديون يرقصون ، ولم يحدث أي من ذلك. مما يعني أننا ينتهي بنا الأمر إلى مشكلة نقل البيانات ، وليس هناك ضرورة لنقل البيانات ، في بعض الأحيان ، ولكنها أيضًا تمثل صعوبة. تتمتع البيانات فعليًا بالجاذبية في الوقت الحاضر ، بمجرد وصولك إلى تيرابايت البيانات المتعددة ، والتقاطها ورميها حولها ، أو نوع من الأسباب التي تظهر في وقت الظهور على شبكتك ، أو تظهر في أماكن مختلفة. إذا كنت تريد نقل البيانات حولها ، فسيكون التوقيت عاملاً. يوجد دائمًا ، في الوقت الحاضر ، بعض القيود على مقدار الوقت الذي يجب أن تحصل عليه من شيء واحد ، وبيانات واحدة من مكان إلى مكان آخر. اعتاد أن يكون هناك ما اعتدنا أن نفكر فيه كنوافذ دفعية ، عندما كان الجهاز خاملاً ، وبغض النظر عن كمية البيانات التي لديك ، يمكنك فقط التخلص منها وستعمل جميعها. حسنًا ، لقد ذهبنا في عالم حقيقي كثيرًا. لذلك التوقيت عامل. بمجرد نقل البيانات ، لذلك إذا كانت البيانات ذات خطورة ، فمن المحتمل أنك لا تستطيع نقلها.

تعد إدارة البيانات عاملاً بمعنى أن لديك بالفعل إدارة جميع هذه البيانات ، ولا يمكنك الحصول عليها مجانًا ، وقد يكون النسخ المتماثل ضروريًا للحصول على البيانات للقيام بالمهمة التي يتعين عليها القيام بها بالفعل ، لأنه قد لا يكون في أي مكان كنت قد وضعت عليه. قد لا يكون لديها موارد كافية للقيام بالمعالجة الطبيعية للبيانات. لذلك يتم نسخ البيانات وتكرار البيانات أكثر مما تتخيل. أعتقد أن أحدهم أخبرني منذ وقت طويل أن متوسط ​​قطعة البيانات يتم نسخه مرتين ونصف على الأقل. تقدم ESBs أو Kafka خيارًا لتدفق البيانات ، ولكنها في الوقت الحاضر تتطلب هندسة. في هذه الأيام ، تحتاج حقًا إلى التفكير بطريقة أو بأخرى ، حول ما يعنيه بالفعل رمي البيانات حولها. لذلك ، من الأفضل الوصول إلى البيانات في مكانها ، طالما يمكنك بالطبع الحصول على الأداء الذي تحتاجه عندما تذهب بالفعل إلى البيانات وهذا يعتمد على السياق. لذلك هو وضع صعب ، على أي حال. فيما يتعلق باستفسارات البيانات ، اعتدنا أن نكون قادرين على التفكير فيما يتعلق بـ SQL ، فقد توصلنا الآن إلى أشكال مختلفة من الاستعلامات ، SQL yes ، ولكننا نواجه استعلامات بيانية مجاورة أيضًا ، Spark هي مثال واحد فقط على القيام بالرسم البياني ، لأننا نحتاج أيضًا إلى البحث عن نص ، أكثر مما فعلنا في أي وقت مضى ، وأيضًا أنواع عمليات البحث التي تتصف بالتعقيد ، وهي عمليات بحث معقدة عن الأنماط ومطابقة الأنماط الأصلية ، كل هذه الأشياء تنفجر فعليًا. وكلها مفيدة لأنها توفر لك ما تبحث عنه ، أو أنها يمكن أن تحصل على ما تبحث عنه.

تمتد أيام الاستعلامات الآن إلى بيانات متعددة ، لذلك لم تفعل ذلك دائمًا ، وغالبًا ما يكون الأداء مروعًا إذا قمت بذلك. لذلك ، يعتمد ذلك على الظروف ، لكن يتوقع الناس أن يكونوا قادرين على الاستعلام عن البيانات من مصادر بيانات متعددة ، لذلك أصبح اتحاد البيانات من نوع أو آخر أكثر حداثة. تعد محاكاة البيانات الافتراضية ، وهي طريقة مختلفة للقيام بذلك ، اعتمادًا على الأداء ، شائعة جدًا أيضًا. استعلامات البيانات هي في الواقع جزء من العملية ، وليس العملية بأكملها. تجدر الإشارة إلى أنه إذا كنت تبحث فعليًا عن أداء التحليلات ، فيمكن أن تستغرق التحليلات الفعلية وقتًا أطول بكثير من جمع البيانات ، لأن ذلك يعتمد على الظروف ، لكن استعلامات البيانات تعد ضرورة مطلقة إذا كنت تريد القيام بأي نوع من التحليلات على مصادر بيانات متعددة ، وفقط ، عليك حقًا امتلاك قدرات تمتد.

لذلك عن الفهارس. توجد كتالوجات لسبب ما ، على الأقل نقول ذلك ، كما تعلمون ، لدينا أدلة ، ولدينا مخططات في قواعد البيانات ، ولدينا كل كتالوج ولدينا أينما ذهبت ستجد مكانًا واحدًا ، ثم اكتشف أن هناك نوعًا من الكتالوج ، والفهرس الشامل الموحد فكرة جيدة بشكل واضح. لكن قلة قليلة من الشركات لديها مثل هذا الشيء. أتذكر ، مرة أخرى في العام ألفي - عام ألفي الذعر - أتذكر أن الشيوعيين لم يتمكنوا حتى من تحديد عدد التنفيذيين لديهم ، ولا يهمهم كم عدد مخازن البيانات المختلفة لديهم ، وربما هذا هو الحال الآن ، كما تعلمون ، أن معظم الشركات لا تعرف بنشاط بالمعنى العالمي ، ما هي البيانات التي لديهم. ولكن من الواضح أنه أصبح من الضروري بشكل متزايد امتلاك كتالوج عالمي بالفعل ، أو على الأقل الحصول على صورة عالمية لما يجري بسبب نمو مصادر البيانات ، والنمو المستمر للتطبيقات ، وهو ضروري بشكل خاص للتحليلات ، لأنك أيضًا بطريقة أو بأخرى ، فهناك مشكلات أخرى هنا مثل النسب والمشاكل في البيانات ، وهي ضرورية للأمان ، والعديد من جوانب إدارة البيانات ، إذا كنت لا تعرف حقًا البيانات التي لديك ، الفكرة إنك ستحكم الأمر هو أمر سخيف. لذلك ، في ذلك ، يتم تصنيف كافة البيانات بطريقة ما مجرد حقيقة. والسؤال هو ما إذا كان الكتالوج متماسكًا ، وما الذي يمكنك فعله به بالفعل. لذلك سأعود إلى ريبيكا.

ريبيكا جوزويك: حسنًا ، شكرًا روبن. حتى بعد ذلك ، حصلنا على David Crawford من Alation ، David سأذهب إلى الأمام وأمر الكرة إليك ، ويمكنك أخذها بعيدًا.

ديفيد كروفورد: شكرًا جزيلاً. إنني أقدر لك يا رفاق وجود هذا لي في هذا المعرض. أعتقد أنني سأبدأ هذا ، لذلك أعتقد أن دوري هنا ، هو أخذ بعض هذه النظرية ومعرفة كيف يتم تطبيقها بالفعل ، والنتائج التي يمكننا أن نوجهها إلى عملاء حقيقيين ومن ثم يمكنك أن ترى عدد قليل من الشريحة ، أريد أن أتحدث عن النتائج التي سنكون قادرين على رؤيتها في التحسينات التحليلية المحتملة. لتحفيز المناقشة ، سوف نتحدث عن كيفية وصولهم إلى هناك. لذلك أنا محظوظ للعمل بشكل وثيق مع الكثير من الأشخاص الأذكياء حقًا ، هؤلاء العملاء ، وأريد فقط أن أشير إلى عدد قليل ممن تمكنوا من القياس بالفعل ، والتحدث عن كيفية تأثير كتالوج البيانات على محلليهم. سير العمل. ولمجرد البقاء في المقدمة لفترة قصيرة ، أعتقد أن أحد الأشياء التي نراها تتغير ، من خلال كتالوجات البيانات والحلول الوسيطة السابقة وأحد الطرق التي تفكر بها العلاقات حقًا حول الحلول التي وضعناها معًا ، هو البدء من المحللين والعمل الى الوراء. لنقول ، دعنا نجعل ذلك حول تمكين إنتاجية المحللين. بدلا من الامتثال العادل ، أو على عكس مجرد وجود مخزون ، نحن بصنع أداة تجعل المحللين أكثر إنتاجية.

لذلك ، عندما أتحدث مع عالم بيانات في شركة الخدمات المالية سكوير ، هناك رجل ، نيك ، كان يخبرنا بكيفية عمله ، وكان يستغرق عدة ساعات للعثور على مجموعة البيانات المناسبة لبدء التقرير ، والآن يمكنه افعل ذلك في غضون ثوانٍ باستخدام البحث في حصتها في السوق ، تحدثنا إلى CTO الخاص بهم الذين سحبوا محلليهم الذين كانوا يستخدمون Square ، ومعذرة ، وكانوا يستخدمون Alation ، لمعرفة ماهية فوائدهم ، وما الفوائد التي رأوها ، وأبلغوا عن 50 زيادة في المئة من الإنتاجية ، وهذا ، أحد أكبر تجار التجزئة في العالم ، eBay ، لديهم أكثر من ألف شخص يقومون بتحليل SQL على أساس منتظم ، وأنا أعمل عن كثب مع Deb Says هناك ، من هو المشروع مدير في فريق أدوات البيانات الخاصة بهم ، ووجدت أنه عندما يعتمد المستعلمون Alation ، يعتمدون الكتالوج ، فإنهم يرون ضعف سرعة كتابة استعلامات جديدة مقابل قاعدة البيانات.

هذه نتائج حقيقية ، فهؤلاء هم الأشخاص الذين يطبقون الكتالوج فعليًا في مؤسستهم ، وأريد أن أخبرك بما يتطلبه الأمر من إعداد. كيف يتم إنشاء كتالوج في شركة ، وربما الشيء الأكثر أهمية هو أن يحدث الكثير منها تلقائيًا ، لذلك تحدث Dez عن الأنظمة ، وتعلم الأنظمة ، وهذا بالضبط ما يفعله كتالوج البيانات الحديث. لذلك يقومون بتثبيت Alation في مركز البيانات الخاص بهم ثم يقومون بتوصيله بمصادر مختلفة للبيانات الوصفية في بيئة البيانات الخاصة بهم. سأركز قليلاً على قواعد البيانات وأدوات استقصاء المعلومات - من هاتين القاعدتين سنستخرج البيانات الوصفية التقنية ، حول الأساس الموجود. صحيح ، فما الجداول؟ ما التقارير؟ ما هي تعريفات التقرير؟ لذلك يقومون باستخراج البيانات التعريفية التقنية هذه ، ويتم إنشاء صفحة كتالوج تلقائيًا لكل كائن داخل هذه الأنظمة ، وبعد ذلك ، يقوموا أيضًا باستخراج طبقة البيانات التعريفية التقنية وطبقتها فوقها ، ويضعونها فوق بيانات الاستخدام. يتم ذلك بشكل أساسي من خلال قراءة سجلات الاستعلام من قاعدة البيانات ، وهذا مصدر مثير للاهتمام حقًا للمعلومات. لذلك ، عندما يكتب أحد المحللين استعلامًا ، وكلما كانت أداة إعداد التقارير ، سواء كانت نابعة من المنزل ، أو خارجها ، ما إذا كانت أداة إعداد التقارير تقوم بتشغيل استعلام من أجل تحديث لوحة المعلومات ، عندما يقوم أحد التطبيقات بتشغيل استعلام لإدراج البيانات للعمل على مجموعة بيانات - يتم التقاط كل هذه الأشياء في سجلات استعلام قاعدة البيانات. سواء كان لديك كتالوج أو لا ، يتم التقاطها في سجل الاستعلام مع قاعدة البيانات. ما يمكن أن يفعله كتالوج البيانات ، وخاصة ما يمكن أن يفعله كتالوج Alation ، هو قراءة هذه السجلات ، وطرح الاستعلامات بداخلها ، وإنشاء رسم بياني استخدام مثير للاهتمام حقًا استنادًا إلى تلك السجلات ، ونحن نضع ذلك في الاعتبار لإعلام المستخدمين في المستقبل من البيانات حول كيفية استخدام المستخدمين السابقين للبيانات.

لذا ، فإننا نجمع كل هذه المعرفة معًا في الكتالوج ، ولجعل ذلك حقيقيًا ، فهذه هي التكاملات التي تم نشرها بالفعل في العملاء ، لذلك ، شاهدنا Oracle و Teradata و Redshift و Vertica ومجموعة أخرى قواعد البيانات العلائقية. في عالم Hadoop ، هناك مجموعة من SQL على Hadoop ، نوع من المتاجر العلائقية ، الفوقية على رأس نظام ملفات Hadoop ، Impala ، Tez ، Presto و Hive ، وقد شهدنا أيضًا نجاحًا مع مزودي القطاع الخاص في Hadoop مثل Altiscale ، ونحن تمكنت أيضًا من الاتصال بخوادم Tableau وخوادم MicroStrategy وفهرسة لوحات المعلومات هناك ، بالإضافة إلى تكاملها مع أدوات تخطيط علم البيانات مثل Plotly.

لذلك ، نحن نتصل بجميع هذه الأنظمة ، لقد قمنا بتوصيل هذه الأنظمة بالعملاء ، لقد قمنا باستخراج البيانات الوصفية التقنية ، وقمنا بسحب بيانات الاستخدام ، وقمنا بنوع من كتالوج البيانات تلقائيًا ، ولكن بهذه الطريقة ، نحن مركزية المعرفة ، ولكن فقط تركيز الأمور في كتالوج البيانات ، لا يوفر بحد ذاته تعزيزات الإنتاجية الرائعة التي تحدثنا عنها مع eBay و Square و حصتها في السوق. من أجل القيام بذلك ، نحتاج فعلاً إلى تغيير الطريقة التي نفكر بها في توصيل المعرفة للمحللين. أحد الأسئلة التي يطرحونها للتحضير لذلك ، كان "كيف يؤثر الكتالوج فعليًا على سير عمل المحلل؟"

هذا هو ما نقضيه طوال اليوم في التفكير ، ولكي أتحدث عن هذا التغيير في التفكير ، عن آيات الدفع كنموذج سحب ، أردت أن أقوم بتشبيه سريع لما كان عليه العالم قبل وبعد قراءة كيندل. لذلك فهي مجرد تجربة قد يراها البعض منكم ، عندما تقرأ كتابًا ماديًا ، تصادف كلمة ، لست متأكدًا من معرفتك لتعريف تلك الكلمة جيدًا ، يمكنك تخمينها من السياق ، وليس من المرجح أنك سوف تنهض من الأريكة ، وتمشي إلى رف كتبك ، وتعثر على قاموسك ، وتخلص منه ، وتقف إلى المكان الصحيح في القائمة الأبجدية للكلمات للتأكد من ذلك ، نعم كان لديك هذا التعريف تمامًا ، وأنت تعلم الفروق الدقيقة في ذلك. لذلك لا يحدث حقا. لذا ، يمكنك شراء تطبيق Kindle وتبدأ في قراءة الكتب هناك ، وترى كلمة لم تكن متأكدًا تمامًا عنها ولمس الكلمة. كل ما هو مفاجئ ، في نفس الشاشة ، هو تعريف القاموس للكلمة ، مع كل الفروق الدقيقة ، واستخدامات أمثلة مختلفة ، وانتقاد قليلاً ، وتحصل على مقالة Wikipedia حول هذا الموضوع ، انتقاد مرة أخرى ، تحصل على أداة ترجمة يمكنها ترجمتها إلى لغات أخرى أو من لغات أخرى ، وفجأة تكون معرفتك للغة أكثر ثراءً ، ويحدث ذلك بعدد مذهل من المرات ، مقارنةً بوقت اضطرارك للذهاب إليه و اسحب هذا المورد لنفسك.

وهكذا فإن ما سأقوله هو أن سير العمل للمحلل والطريقة التي سيتعامل بها المحلل مع وثائق البيانات ، هي في الواقع تشبه إلى حد كبير الطريقة التي سيتفاعل بها القارئ مع القاموس ، سواء كان فعليًا أو مع ذلك Kindle ، وماذا نحن ، الطريقة التي رأينا بها فعلًا هذه الزيادة في الإنتاجية ، لا تسكب الكتالوج ، ولكن توصيله بسير عمل المحلل ، وهكذا ، طلبوا مني إجراء عرض توضيحي هنا ، وأريد لجعل هذا محور هذا العرض. لكني أريد فقط إعداد سياق العرض التوضيحي. عندما نفكر في نقل معرفة البيانات إلى المستخدمين عندما يحتاجون إليها ، فإننا نعتقد أن المكان المناسب للقيام بذلك ، والمكان الذي يقضون فيه وقتهم وأين يقومون بالتحليل ، هو أداة استعلام SQL. مكان يمكنك فيه كتابة استعلامات SQL وتشغيلها. وهكذا قمنا ببناء واحدة ، وقمنا ببنائها ، والشيء المختلف حقًا عن ذلك من أدوات الاستعلام الأخرى هو تكاملها العميق مع كتالوج البيانات.

لذلك تسمى أداة الاستعلام الخاصة بنا Alation Compose. إنها أداة استعلام عبر الإنترنت وسأعرضها لك في الثانية. أداة استعلام معتمدة على الويب تعمل عبر كل شعارات قاعدة البيانات تلك التي شاهدتها على الشريحة السابقة. ما سأحاول عرضه على وجه الخصوص هو الطريقة التي تأتي بها معلومات الكتالوج إلى المستخدمين. ويفعل ذلك من خلال هذا النوع من ثلاث طرق مختلفة. يتم ذلك من خلال التدخلات ، وهنا يمكن أن يقول شخص من هو حاكم البيانات ، أو مسؤول عن البيانات ، أو مسؤول من نوع ما ، أو مدير ، "أريد التدخل نوعًا ما مع ملاحظة أو تحذير في سير العمل وتأكد من تسليمه إلى المستخدمين في الوقت المناسب. "لذلك هذا تدخل وسنعرض ذلك.

الاقتراحات الذكية هي طريقة تستخدم فيها الأداة كل معرفتها المجمعة بالكتالوج لاقتراح كائنات وأجزاء من الاستعلام أثناء كتابتها. أهم شيء يجب معرفته هناك هو أنه يستفيد بالفعل من سجل الاستعلام للقيام بذلك ، لاقتراح أشياء بناءً على الاستخدام وأيضًا العثور على أجزاء من الاستعلامات التي تمت كتابتها من قبل. وسوف نظهر ذلك.

ثم معاينات. المعاينات هي ، كما تكتب باسم كائن ، نعرض لك كل ما يعرفه الفهرس ، أو على الأقل أكثر الأشياء ذات الصلة التي يعرفها الفهرس حول هذا الكائن. إذن ، نماذج من البيانات ، التي استخدمتها من قبل ، والاسم المنطقي لذلك الكائن ووصفه ، تأتي إليك جميعها أثناء كتابتها دون الحاجة إلى طلب ذلك.

لذلك دون مزيد من الكلام ، سأصل إلى العرض ، وسأنتظر ظهوره. ما سأريكه هنا هو أداة الاستعلام. إنها واجهة كتابة SQL مخصصة. إنها واجهة منفصلة عن الكتالوج ، بمعنى ما. تحدث Dez و Robin عن الكتالوج ، وأنا أقفز قليلاً فوق واجهة الكتالوج مباشرةً إلى كيفية تقديمه مباشرة لخدمة سير العمل.

أنا فقط أعرض هنا مكانًا يمكنني فيه كتابة SQL ، وفي الأسفل سترى أن لدينا بعض المعلومات التي تظهر حول الكائنات التي نشير إليها. لذلك سأبدأ فقط في كتابة استعلام وسأوقف عندما أحصل على أحد هذه التدخلات. لذلك أنا اكتب "حدد" ، وأريد السنة. اريد الاسم وسأبحث عن بعض بيانات الرواتب. لذلك هذا هو مجموعة بيانات التعليم. إنه يحتوي على معلومات حول مؤسسات التعليم العالي ، وأنا أبحث في متوسط ​​راتب أعضاء هيئة التدريس الموجود في أحد هذه الجداول.

لقد كتبت بالفعل كلمة "راتب". إنها ليست بالضبط اسم العمود بهذه الطريقة. نحن نستخدم كلاً من البيانات الوصفية المنطقية والبيانات الوصفية المادية لعمل اقتراحات. وما أود الإشارة إليه هنا هو أن المربع الأصفر يظهر هنا. تقول هناك تحذير في هذا العمود. لم أكن أبحث عن ذلك ، لم أحضر فصلًا عن كيفية استخدام هذه البيانات بشكل صحيح. يتعلق الأمر بي ، ويحدث تحذير بشأن اتفاقية سرية تتعلق بهذه البيانات. لذلك هناك بعض قواعد الكشف. إذا كنت سأستفسر عن هذه البيانات ، فسأخرج البيانات من هذا الجدول ، وسأكون حذراً بشأن كيفية الكشف عنها. لذلك لديك سياسة الحكم هنا. هناك بعض التحديات المتعلقة بالامتثال والتي تجعل من الأسهل بكثير الامتثال لهذه السياسة عندما أعرف عنها في الوقت الذي أطلع فيه على البيانات.

إذن لديّ هذا الأمر لي ، ثم سأنظر أيضًا في الرسوم الدراسية. وهنا نرى معاينات تدخل حيز التنفيذ. في عمود التعليم هذا ، أرى - هناك عمود دروس على جدول المؤسسة ، وأرى ملفًا شخصيًا لذلك. يذهب Alation ويسحب عينات من الجداول ، وفي هذه الحالة ، يعرض لي شيئًا مثيرًا للاهتمام. إنه يوضح لي توزيع القيم ، ويظهر لي أن قيمة الصفر ظهرت في العينة 45 مرة ، وأكثر من أي قيمة أخرى. لذلك لدي شعور بأننا قد نفقد بعض البيانات.

إذا كنت محللًا متقدمًا ، فقد يكون هذا جزءًا من سير العمل الخاص بي بالفعل. خاصةً إذا كنت دقيقًا للغاية ، حيث أقوم بمجموعة من استعلامات التوصيف في وقت مبكر. كلما اقتربت من جزء جديد من البيانات ، أفكر دائمًا في ماهية تغطية بياناتنا. ولكن إذا كنت جديدًا على تحليل البيانات ، وإذا كنت جديدًا على مجموعة البيانات هذه ، فقد أفترض أنه إذا كان هناك عمود ، فسيتم ملؤه كل الوقت. أو ربما أفترض أنه إذا لم يتم ملؤه ، فهو ليس صفريًا ، أو لاغٍ أو شيء من هذا القبيل. لكن في هذه الحالة ، لدينا الكثير من الأصفار ، وإذا قمت بمتوسط ​​، فمن المحتمل أن تكون على خطأ ، إذا افترضت أن هذه الأصفار كانت في الواقع صفر بدلاً من البيانات المفقودة.

لكن Alation ، من خلال جلب هذه المعاينة إلى سير عملك ، يطلب منك نوعًا ما إلقاء نظرة على هذه المعلومات ومنح نوع من المحللين المبتدئين فرصة لرؤية أن هناك شيئًا لتلاحظه هنا حول هذه البيانات. لذلك لدينا تلك المعاينة.

الشيء التالي الذي سأفعله هو أنني سأحاول معرفة الجداول التي يمكنني الحصول عليها من هذه المعلومات. حتى هنا نرى الاقتراحات الذكية. كان يحدث طوال الوقت ، ولكن على وجه الخصوص هنا ، لم أكتب أي شيء حتى الآن ، لكنه سيقترح لي الجداول التي قد أستخدمها لهذا الاستعلام. وأهم شيء يجب معرفته عن ذلك هو أنه يستفيد من إحصائيات الاستخدام. لذلك في بيئة مثل ، على سبيل المثال ، eBay ، حيث لديك مئات الآلاف من الجداول في قاعدة بيانات واحدة ، فإن وجود أداة يمكنها ضرب القمح من القشر واستخدام إحصائيات الاستخدام هذه ، أمر مهم حقًا لجعل هذه اقتراحات تستحق شيئا.

لذلك سوف تشير إلى هذا الجدول. عندما أنظر إلى المعاينة ، نسلط الضوء فعليًا على ثلاثة أعمدة ذكرتها بالفعل في استعلامي. أعلم أنه حصل على ثلاثة ، لكنه لا يحمل الاسم. أحتاج إلى الحصول على الاسم ، لذلك سأقوم بالانضمام. عندما أقوم بربط ، الآن مرة أخرى لدي هذه المعاينات لمساعدتي في العثور ، حيث يوجد الجدول بالاسم. لذلك أرى أن هذا واحد له تنسيق جيد ، نوع من الأحرف الكبيرة بشكل صحيح. يبدو أن هناك صفًا واحدًا يحمل اسمًا لكل مؤسسة ، لذلك سأحصل على ذلك ، والآن أحتاج إلى شرط الانضمام.

وهكذا ، هنا ما تفعله Alation هو العودة مرة أخرى إلى سجلات الاستعلام ، ورؤية الأوقات السابقة التي تم ربط هذين الجدولين بها ، واقتراح طرق مختلفة للانضمام إليها. مرة أخرى ، هناك بعض التدخل. إذا نظرت إلى أحد هذه العناصر ، فسيظهر تحذير يوضح أنه يجب استخدام هذا فقط للتحليل الكلي. من المحتمل أن ينتج عنه خطأ إذا كنت تحاول القيام بشيء ما عبر المؤسسة حسب المؤسسة. في حين أن هذا ، مع اعتماد OPE ID هو الطريقة الصحيحة للانضمام إلى هذين الجدولين إذا كنت تريد بيانات على مستوى الجامعة. لذلك قمت بذلك ، وهو عبارة عن استعلام قصير ، لكنني كتبت استعلامي دون أن يكون لدي أي نظرة ثاقبة حول ماهية البيانات. لم أقم مطلقًا بالاطلاع على مخطط ER لمجموعة البيانات هذه ، لكنني أعرف الكثير حول هذه البيانات بالفعل لأن المعلومات ذات الصلة تأتي إلي.

لذا ، فهذه هي الطرق الثلاث التي يمكن أن يؤثر بها الكتالوج ، من خلال أداة استعلام متكاملة ، بشكل مباشر على سير العمل أثناء كتابة الاستعلامات. ولكن أحد المزايا الأخرى لوجود أداة استعلام مدمجة في الكتالوج هي أنه عندما أنهي الاستعلام الخاص بي وحفظه ، يمكنني وضع عنوان مثل "الرسوم الدراسية للمؤسسة ورواتب أعضاء هيئة التدريس" ، ومن ثم لدي زر هنا يسمح لي فقط بنشره في الكتالوج. يصبح من السهل للغاية بالنسبة لي لتغذية هذا مرة أخرى. حتى لو لم أنشرها ، يتم التقاطها كجزء من سجل الاستعلام ، لكن عندما أنشره ، يصبح في الواقع جزءًا من الطريقة التي يعيش فيها كل معرفة البيانات.

لذلك ، إذا قمت بالنقر فوق "بحث عن جميع الاستعلامات في Alation" ، فسوف يتم نقلي - وهنا سترى المزيد من واجهة الكتالوج - لقد تم نقلي إلى بحث مخصص للاستعلام يُظهر لي طريقة للعثور على الاستعلامات عبر المنظمة بأكملها. وسترى أن استعلامي المنشور حديثًا في الأعلى. وقد يلاحظ البعض هنا في ، أثناء التقاط الاستعلامات ، نلتقط أيضًا المؤلفين ، ونؤسس نوعًا من هذه العلاقة بيني كمؤلف وكائنات البيانات هذه التي أعرفها الآن عن شيء ما. ويتم تأسيسي كخبير في هذا الاستعلام وعلى كائنات البيانات هذه. هذا مفيد حقًا عندما يحتاج الأشخاص إلى التعرف على البيانات ، ثم يمكنهم العثور على الشخص المناسب للذهاب للتعرف عليه. وإذا كنت جديدًا بالفعل على البيانات ، سواء كنت محللًا متقدمًا - كمحلل متقدم ، فقد أنظر إلى ذلك وأرى مجموعة من الأمثلة التي من شأنها أن تجعلني أبدأ في مجموعة بيانات جديدة. بصفتي شخصًا قد لا يشعر بذكاء شديد مع SQL ، يمكنني العثور على استعلامات مسبقة الصنع والتي هي تقارير يمكنني الاستفادة منها.

إليك واحدة من Phil Mazanett حول نتائج SAT المتوسطة. انقر على هذا ، وأحصل على نوع من صفحة الكتالوج للاستعلام نفسه. يتحدث عن مقال مكتوب يشير إلى هذا الاستعلام ، لذلك هناك بعض الوثائق التي يمكنني قراءتها إذا كنت أرغب في معرفة كيفية استخدامها. يمكنني فتحه في أداة الاستعلام عن طريق النقر فوق الزر "إنشاء" ، ويمكنني تشغيله بنفسي هنا دون حتى تحريره. وفي الواقع ، يمكنك أن ترى قليلاً من قدراتنا في إعداد التقارير الخفيفة ، حيث ، عند كتابة استعلام ، يمكنك إسقاط متغير قالب مثل هذا ويخلق طريقة بسيطة لإنشاء نموذج لتنفيذ استعلام يستند إلى على اثنين من المعلمات.

هذا ما لدي للعرض. سأعود إلى الشرائح. لمجرد نوع من الخلاصة ، أظهرنا كيف يمكن للمسؤول ، وهو حاكم البيانات ، التدخل من خلال وضع تحذيرات على الكائنات التي تظهر في أداة الاستعلام ، وكيف يستخدم Alation معرفته باستخدام كائنات البيانات لعمل اقتراحات ذكية ، وكيف يجلب في ملفات التعريف والنصائح الأخرى لتحسين سير عمل المحللين عندما يلمسون كائنات معينة ، وكيف يتم تغذية كل هذا النوع من الفهرس في الكتالوج عند كتابة استعلامات جديدة.

من الواضح أنني متحدث باسم الشركة. سأقول أشياء لطيفة عن كتالوجات البيانات. إذا كنت تريد أن تسمع مباشرة من أحد عملائنا ، فإن كريستي ألين من Safeway تدير فريقًا من المحللين ولديها قصة رائعة حقًا عن وقت احتاجت فيه للتغلب على عقارب الساعة من أجل تقديم تجربة تسويقية ، وكيفية قيامها برمتها استخدم فريق Alation للتعاون والالتفاف بسرعة في هذا المشروع. حتى تتمكن من متابعة هذا الرابط bit.ly للتحقق من هذه القصة ، أو إذا كنت تريد أن تسمع قليلاً عن كيف يمكن لـ Alation إحضار كتالوج بيانات إلى مؤسستك ، يسعدنا إعداد عرض توضيحي مخصص. شكرا جزيلا.

ريبيكا جوزويك: شكرًا جزيلاً يا ديفيد. أنا متأكد من أن لديز وروبن لديهما بعض الأسئلة قبل أن أنقل إلى الجمهور سؤال وجواب. ديز ، هل تريد أن تذهب أولا؟

ديز بلانشفيلد: بالتأكيد. أحب فكرة هذا المفهوم للاستعلامات المنشورة وربطها بمصدر التأليف. لقد كنت بطلة منذ زمن طويل في هذه الفكرة عن متجر تطبيقات داخلي وأعتقد أن هذا أساس رائع حقًا للبناء عليه.

جئت إلى حد ما للتعرف على بعض المنظمات التي تراها تفعل ذلك ، وبعض قصص النجاح التي قد تكون لديهم في هذه الرحلة بأكملها والتي لا تقتصر فقط على الاستفادة من الأداة والمنصة الخاصة بك لاكتشاف البيانات ، ولكن أيضا ثم تحويل سماتها الثقافية والسلوكية الداخلية حولها. أصبح لديك الآن هذا النوع من متجر التطبيقات الداخلي حيث يمكنك تنزيله فقط ، وهو المفهوم الذي لا يمكن أن يجدوه فقط فحسب ، بل يمكنهم أيضًا البدء في تطوير مجتمعات صغيرة باستخدام حماة تلك المعرفة.

ديفيد كروفورد: نعم ، أعتقد أننا فوجئنا. نحن نؤمن بقيمة مشاركة الاستعلامات ، من ماضي كمدير منتج في Adtech ومن جميع العملاء الذين تحدثنا إليهم ، لكنني ما زلت مندهشًا من عدد المرات التي يكون فيها العملاء من أول الأشياء نتحدث عنها باعتبارها القيمة التي يخرجونها من Alation.

كنت أقوم بإجراء بعض اختبارات المستخدم لأداة الاستعلام في أحد عملائنا تسمى Invoice2go ، وكان لديهم مدير منتج كان جديدًا نسبيًا ، وقالوا - لقد أخبرني بالفعل ، أنه لم يرضخ أثناء اختبار المستخدم ، "في الواقع لن أفعل كن يكتب SQL على الإطلاق فيما عدا أنه سهل بواسطة Alation ". وبالطبع ، بصفتي رئيس الوزراء ، فإنني أذهب إلى حد ما ،" ماذا تقصد ، كيف فعلنا ذلك؟ "وقال ،" حسنًا ، إنه حقًا مجرد لأنني أستطيع تسجيل الدخول وأستطيع أن أرى كل هذه الاستعلامات الحالية. "إن البدء بقائمة فارغة باستخدام SQL هو أمر صعب للغاية ، ولكن تعديل استعلام موجود حيث يمكنك رؤية النتيجة التي تم طرحها ويمكنك أن تقول ، "أوه ، أنا فقط بحاجة إلى هذا العمود الإضافي ،" أو "أحتاج إلى ترشيحه إلى نطاق معين من التواريخ ،" هذا شيء أسهل بكثير للقيام به.

لقد رأينا نوعًا من هذه الأدوار المساعدة ، مثل مديري المنتجات ، وربما الأشخاص في عمليات البيع ، والذين بدأوا في الالتقاط والذين أرادوا دائمًا تعلم SQL والبدء في استلامها باستخدام هذا الكتالوج. لقد رأينا أيضًا أن الكثير من الشركات حاولت القيام بمصدر مفتوح. لقد حاولت بناء هذه الأنواع من الأشياء داخليًا ، حيث تقوم بتتبع الاستعلامات وإتاحتها ، وهناك نوع من التحديات الصعبة حقًا لجعلها مفيدة. كان لدى Facebook أداة داخلية أطلقوا عليها HiPal هذا النوع من التقاط جميع الاستعلامات المكتوبة على Hive ، ولكن ما تكتشفه هو أنه إذا لم تدفع نوعًا ما من المستخدمين بالطريقة الصحيحة ، فسوف ينتهي بك الأمر إلى قائمة طويلة جدا من البيانات المحددة. وبصفتي مستخدمًا يحاول معرفة ما إذا كان الاستعلام مفيدًا لي أم أنه مفيد ، فإذا ما ألقيت نظرة على قائمة طويلة من العبارات المحددة ، فسوف يستغرق الأمر وقتًا أطول بكثير للحصول على شيء غير ذي قيمة من هناك. تبدأ من الصفر. لقد فكرنا جيدًا في كيفية عمل كتالوج استعلام يقدم الأشياء الصحيحة إلى المقدمة ويوفرها بطريقة مفيدة.

ديز بلانشفيلد: أعتقد أننا جميعًا نمر بهذه الرحلة منذ سن مبكرة للغاية ، وحتى سن الرشد ، بطرق عديدة. مجموعة من التقنيات. أنا شخصياً ، مررت بنفس الشيء الحقيقي ، مثل تعلُّم قطع الكود. كنت أذهب إلى المجلات ثم الكتب ، وأود أن أدرس إلى مستوى معين ، ثم كنت بحاجة للذهاب والحصول على مزيد من التدريب والتعليم في الواقع.

لكن عن غير قصد وجدت أنه حتى عندما كنت أذهب لتدريس نفسي وقراءة المجلات وقراءة الكتب وتقطيع برامج الآخرين والذهاب إلى الدورات التدريبية ، ما زلت انتهى بي الأمر بالتعلم من القيام بالدورات كما فعلت للتو مع الآخرين الناس الذين لديهم بعض التجارب. وأعتقد أن هذا اكتشاف مثير للاهتمام ، والآن بعد أن أحضرت ذلك إلى تحليلات البيانات ، نرى بشكل أساسي نفس التوازي ، أن البشر أذكياء للغاية.

الشيء الآخر الذي أنا حريص حقًا على فهمه هو ، على مستوى عالٍ للغاية ، أن العديد من المنظمات سوف تسأل ، "كم من الوقت يستغرق للوصول إلى تلك النقطة؟" ما هو الإطار الزمني لنقطة التحول عندما يحصل الناس تم تثبيت النظام الأساسي الخاص بك وبدأوا في اكتشاف أنواع الأدوات؟ ما مدى سرعة تحول الأشخاص الذين يرون أن هذا الشيء يتحول إلى لحظة "لحظة" حقيقية حيث يدركون أنهم لم يعودوا قلقين بشأن عائد الاستثمار لأنه موجود الآن ، لكنهم الآن يغيرون بالفعل طريقة عملهم ؟ لقد اكتشفوا فنًا ضائعًا ويتوقعون أن يتمكنوا من فعل شيء ممتع حقًا.

ديفيد كروفورد: نعم ، يمكنني أن أتطرق إليها قليلاً. أعتقد أنه عندما يتم تثبيته ، فإن أحد الأشياء اللطيفة ، وأحد الأشياء التي يعجب بها الأشخاص حول الكتالوج المتصل مباشرة بأنظمة البيانات ، هو أنك لا تبدأ فارغًا حيث يجب عليك ملء هذا النوع من المعلومات. صفحة بالصفحة. وهذا صحيح تمامًا في حلول البيانات السابقة حيث تبدأ باستخدام أداة فارغة وعليك البدء في إنشاء صفحة لكل ما تريد توثيقه.

نظرًا لأننا نوثق العديد من الأشياء تلقائيًا من خلال استخراج البيانات الأولية ، وذلك أساسًا في غضون بضعة أيام من تثبيت البرنامج ، يمكنك الحصول على صورة لبيئة البيانات لديك بنسبة 80 في المائة على الأقل في الأداة. ثم أعتقد أنه بمجرد أن يبدأ الأشخاص في كتابة طلبات البحث باستخدام الأداة ، يتم حفظها تلقائيًا في الكتالوج ، وبالتالي سيبدأون في الظهور أيضًا.

لا أريد أن أكون متحمسًا في ذكر ذلك. أعتقد أن أسبوعين هو تقدير محافظ جيد جدًا ، إلى شهر واحد. من أسبوعين إلى شهر ، تقدير متحفظ للالتفاف حقًا والشعور وكأنك تحصل على قيمة منه ، مثل أنك بدأت في مشاركة بعض المعرفة والقدرة على الذهاب إلى هناك ومعرفة أشياء حول بياناتك.

ديز بلانشفيلد: إنه أمر مدهش حقًا ، عندما تفكر في الأمر. حقيقة أن بعض منصات البيانات الكبيرة التي تقوم بفهرستها وفهرستها بشكل فعال ستستغرق أحيانًا ما يصل إلى سنة لتنفيذ ونشر والوقوف بشكل صحيح.

السؤال الأخير الذي تلقيته من أجلك قبل أن أنقله إلى Robin Bloor ، هو الموصلات. أحد الأشياء التي تقفز على الفور هو أنه من الواضح أنك واجهت هذا التحدي برمته. إذن هناك سؤالان بسرعة فقط. أولاً ، ما مدى سرعة تنفيذ الروابط؟ من الواضح أنك تبدأ بأكبر منصة ، مثل Oracles و Teradatas وما إلى ذلك و DB2s. ولكن إلى أي مدى تشاهد الموصلات الجديدة بشكل منتظم ، وما الوقت المستغرق الذي تستغرقه؟ أتصور أن لديك إطارًا قياسيًا لهم. وما مدى عمق ذهابك إلى هؤلاء؟ على سبيل المثال ، أوراكل و IBMs في العالم ، وحتى Tereadata ، ثم بعض من أكثر المنصات المفتوحة المصدر شعبية. هل يعملون مباشرة معك؟ هل تكتشفها بنفسك؟ هل يجب أن يكون لديك معرفة داخلية على تلك المنصات؟

كيف يبدو وضع نوع من الموصل ، وما مدى عمق مشاركتك في تلك الشراكات لضمان اكتشاف تلك الروابط لكل ما تستطيع؟

ديفيد كروفورد: نعم ، بالتأكيد ، إنه سؤال رائع. أعتقد أنه بالنسبة للجزء الأكبر ، يمكننا تطوير الموصلات. لقد فعلنا بالتأكيد عندما كنا شركة ناشئة أصغر ولم يكن لدينا عملاء. يمكننا تطوير الاتصالات بالتأكيد دون الحاجة إلى أي وصول داخلي. لا نحصل أبدًا على أي وصول خاص إلى أنظمة البيانات غير المتاحة للجمهور ، وغالبًا دون الحاجة إلى أي معلومات داخلية. نحن نستفيد من خدمات البيانات الأولية المتاحة بواسطة أنظمة البيانات نفسها. في كثير من الأحيان يمكن أن تكون معقدة للغاية ويصعب العمل معها. أعرف SQL Server على وجه الخصوص ، والطريقة التي يديرون بها سجل الاستعلام ، وهناك العديد من التكوينات المختلفة ، وهذا شيء يجب عليك العمل به بالفعل. يجب أن تفهم الفروق الدقيقة والمقابض والطلب عليها لإعدادها بشكل صحيح ، وهذا شيء نعمل عليه مع العملاء منذ أن قمنا به عدة مرات من قبل.

لكن إلى حد ما ، هي نوع من واجهات برمجة التطبيقات العامة المتاحة أو الواجهات العامة المتوفرة التي نوفرها. لدينا شراكات مع العديد من هذه الشركات ، وهذا في الغالب سبب لإصدار الشهادات ، بحيث تشعر بالراحة عند قولنا إننا نعمل وأيضًا يمكن أن توفر لنا موارد للاختبار ، وأحيانًا يكون الوصول المبكر إلى منصة قد يتم طرحها للتأكد من أن نحن نعمل على الإصدارات الجديدة.

لإلغاء اتصال جديد ، أود أن أقول مرة أخرى ، وأحاول أن أكون محافظًا ، دعنا نقول من ستة أسابيع إلى شهرين. ذلك يعتمد على مدى تشابهها. لذلك بعض من Postgre يعمل نوعا ما يشبه إلى حد بعيد Redshift. تشترك Redshift و Vertica في الكثير من التفاصيل. حتى نتمكن من الاستفادة من هذه الأشياء. ولكن نعم ، ستة أسابيع إلى شهرين ستكون عادلة.

لدينا أيضًا واجهات برمجة التطبيقات (APIs) ، لذلك - نفكر في Alation كنظام أساسي للبيانات الوصفية ، لذلك إذا لم يكن أي شيء متاحًا لنا للوصول والاستيلاء تلقائيًا ، فهناك طرق يمكنك من خلالها كتابة الرابط بنفسك ودفعه إلى نظامنا حتى أن كل شيء لا يزال يحصل مركزية في محرك بحث واحد.

ديز بلانشفيلد: رائع. وأنا أقدر ذلك. لذلك سنقوم بتسليمها إلى روبن ، لأنني متأكد من أن لديه مجموعة كبيرة من الأسئلة أيضًا. روبن؟

ريبيكا جوزويك: قد يكون روبن كتمًا .

ديز بلانشفيلد: لديك نفسك في كتم الصوت.

روبن بلور: نعم ، صحيح. آسف ، لقد كتمت نفسي. عند تنفيذ هذا ، ما هي العملية؟ أنا فضولي لأن هناك الكثير من البيانات في العديد من الأماكن. فكيف يتم ذلك؟

ديفيد كروفورد: نعم بالتأكيد. نبدأ ، أولاً ، إنها عملية تكنولوجيا معلومات للتأكد من توفير خادمنا ، والتأكد من توفر اتصالات الشبكة ، وأن المنافذ مفتوحة حتى نتمكن من الوصول إلى الأنظمة فعليًا. انهم جميعا في كثير من الأحيان معرفة النظم التي يريدون أن تبدأ. معرفة من داخل نظام البيانات ، والتي - وأحيانا سوف نساعدهم فعلا. سنساعدهم في إلقاء نظرة أولية على سجل طلباتهم لفهم من الذي يستخدم عدد المستخدمين الذين لديهم على نظام ما. لذلك سنساعدك على معرفة مكان وجودهم - غالبًا ، إذا كان لديهم المئات أو الآلاف من الأشخاص الذين ربما يقومون بتسجيل الدخول إلى قواعد البيانات ، فهم في الواقع لا يعرفون من أين يقومون بتسجيل الدخول ، لذلك يمكننا الخروج من يسجل الاستعلام عدد حسابات المستخدمين الفريدة التي تقوم بالفعل بتسجيل الدخول وتنفيذ الاستعلامات هنا في غضون شهر أو نحو ذلك.

لذلك يمكننا الاستفادة من ذلك ، ولكن في كثير من الأحيان فقط على أهمها. نحن ننشئهم ومن ثم هناك عملية للقول ، "دعونا نعطي الأولوية". هناك مجموعة من الأنشطة التي يمكن أن تحدث بالتوازي. أود التركيز في التدريب على استخدام أداة الاستعلام. بمجرد أن يبدأ الناس في استخدام أداة الاستعلام ، أولاً ، يحب الكثير من الناس حقيقة أنها مجرد واجهة واحدة لجميع أنظمتهم المختلفة. كما أنهم يحبون حقيقة أنه يستند إلى الويب ، ولا يتضمن أي عمليات تثبيت إذا كانوا لا يريدون ذلك. من وجهة نظر الأمان ، يرغبون في الحصول على نوع من نقطة إدخال واحدة ، من وجهة نظر الشبكة ، بين نوع من شبكة تكنولوجيا المعلومات corp ومركز البيانات حيث تعيش مصادر بيانات الإنتاج. وهكذا ، سيقومون بإعداد Alation كأداة استعلام ويبدأون في استخدام "إنشاء" كنقطة وصول لجميع هذه الأنظمة.

لذلك بمجرد أن يحدث ذلك ، ما نركز عليه في التدريب ، هو فهم بعض الاختلافات بين أداة استعلام تستند إلى الويب أو أداة خادم تعتمد على الخادم مقابل واحدة لديك على سطح المكتب الخاص بك ، وبعض الفروق الدقيقة في استخدام أن. وفي الوقت نفسه ما سنحاول القيام به هو تحديد البيانات الأكثر قيمة ، والاستفادة مرة أخرى من معلومات سجل الاستعلام ، والقول ، "مهلا ، قد ترغب في الدخول ومساعدة الناس على فهمها. دعنا نبدأ في نشر استفسارات تمثيلية على هذه الجداول. "هذه هي الطريقة الأكثر فاعلية في بعض الأحيان للحصول على الناس بسرعة كبيرة. لنلقِ نظرة على سجل الاستعلامات الخاص بك ، انشر هذه الأشياء حتى تظهر كطلبات بحث أولية. عندما ينظر الأشخاص إلى صفحة الجدول ، يمكنهم مشاهدة جميع الاستعلامات التي لمست هذا الجدول ، ويمكنهم البدء من هناك. ثم نبدأ في إضافة العناوين والأوصاف إلى هذه الكائنات بحيث يسهل العثور عليها والبحث عنها ، حتى تعرف بعض الفروق الدقيقة في كيفية استخدامها.

نتأكد من أن نلقي نظرة شاملة على سجل الاستعلام حتى نتمكن من توليد النسب. أحد الأشياء التي نقوم بها هي أن ننظر من خلال سجل الاستعلام في بعض الأحيان عندما تنتقل البيانات من جدول إلى آخر ، وهذا يسمح لنا بوضع أحد الأسئلة الأكثر شيوعًا حول جدول البيانات ، من أين جاء هذا؟ كيف أثق بها؟ وما يمكننا أن نظهره ليس فقط الجداول الأخرى التي أتت منها ، ولكن كيف تم تحويلها على طول الطريق. مرة أخرى ، هذا هو نوع من مدعوم من سجل الاستعلام.

لذلك نحن نحرص على إعداد هذه الأشياء وأننا ندخل نسبًا في النظام ، وأننا نستهدف أكثر أجزاء البيانات التعريفية قيمةً للغاية وأكثرها فعاليةً والتي يمكننا تأسيسها على صفحات الجدول ، بحيث عند البحث ، ستجد شيئًا مفيدًا.

روبن بلور: حسنًا. السؤال الآخر - هناك الكثير من الأسئلة من الجمهور ، لذلك لا أريد تناول الكثير من الوقت هنا - والسؤال الآخر الذي يتبادر إلى الذهن هو ، مجرد نقاط الألم. تم شراء الكثير من البرامج لأن الأشخاص ، بطريقة أو بأخرى ، يواجهون صعوبات في شيء ما. فما هي نقطة الألم الشائعة التي تؤدي بالناس إلى Alation؟

ديفيد كروفورد: نعم. أعتقد أن هناك عددًا قليلًا ، لكنني أعتقد أن أحد المحللين الذين نسمعهم غالبًا هو على متن طائرة. "سأحتاج لتوظيف 10 و 20 و 30 شخصًا على المدى القريب والذين سيتعين عليهم إنتاج رؤى جديدة من هذه البيانات ، كيف سيصلون إلى الحد الأقصى؟" يعالج. هناك أيضًا إعفاء كبار المحللين من قضاء كل وقتهم في الإجابة على أسئلة أشخاص آخرين حول البيانات. هذا واحد متكرر جدا كذلك. وكلاهما من مشاكل التعليم بشكل أساسي.

ثم أود أن أقول أن هناك مكانًا آخر نرى فيه أشخاص يتبنون Alation وهو عندما يرغبون في إنشاء بيئة بيانات جديدة تمامًا لشخص يعمل فيها. إنهم يريدون الإعلان عن ذلك وتسويقه داخليًا حتى يستفيد منه الأشخاص. ثم جعل Alation الواجهة الأمامية لتلك البيئة التحليلية الجديدة جذابة للغاية. لقد حصلت على الوثائق ، ولديها نقطة مقدمة واحدة - نقطة وصول واحدة إلى الأنظمة ، وهذا هو مكان آخر سيأتي فيه الناس إلينا.

روبن بلور: حسنًا ، سأنقلك إلى ريبيكا لأن الجمهور يحاول الوصول إليك.

ريبيكا جوزويك: نعم ، لدينا الكثير من الأسئلة الجيدة للجمهور هنا. وديفيد ، تم طرح هذا واحد لك على وجه التحديد. إنه من شخص لديه على ما يبدو بعض الخبرة مع أشخاص من نوع من إساءة استخدام الاستعلامات ، ويقول نوعًا ما إنه كلما قمنا بتمكين المستخدمين ، كلما كان من الصعب التحكم في الاستخدام المسؤول لموارد الحساب. فهل يمكنك الدفاع ضد انتشار عبارات الاستعلام المضللة ولكن الشائعة؟

ديفيد كروفورد: نعم ، أرى هذا السؤال. إنه سؤال رائع - كثيرًا ما نحصل عليه كثيرًا. لقد رأيت الألم بنفسي في الشركات السابقة ، حيث تحتاج إلى تدريب المستخدمين. على سبيل المثال ، "هذا جدول سجلات ، لقد تم إرجاع سجلات لسنوات. إذا كنت ستكتب استعلامًا في هذا الجدول ، فعليك حقًا تحديد التاريخ ". لذلك ، على سبيل المثال ، هذا تدريب مررت به في شركة سابقة قبل أن أتاح لي الوصول إلى قاعدة البيانات.

لدينا طريقتان نحاول معالجتهما. أود أن أقول أنني أعتقد أن بيانات سجل الاستعلام ذات قيمة فريدة حقًا لمعالجتها. يعطي نظرة أخرى مقابل ما تفعله قاعدة البيانات داخليًا مع مخطط الاستعلام الخاص بها. وما نفعله هو ، أحد تلك التدخلات - لدينا التدخلات اليدوية التي عرضتها ، وهذا مفيد ، صحيح؟ لذلك على صلة معينة ، على سبيل المثال ، يمكنك أن تقول ، "دعنا نستنكر ذلك". سيكون لها علامة حمراء كبيرة عندما تظهر في اقتراح ذكي. هذه طريقة واحدة لمحاولة الوصول إلى الناس.

الشيء الآخر الذي نقوم به هو ، الآلي في التدخلات وقت التنفيذ. سيستخدم هذا في الواقع شجرة تحليل الاستعلام قبل تشغيلها لرؤيتها ، هل يشمل مرشحًا معينًا أو بضعة أشياء أخرى نقوم بها هناك أيضًا. ولكن واحدة من أكثرها قيمة وأبسط واحد لشرح هو ، هل يشمل مرشح؟ لذلك ، مثل هذا المثال الذي قدمته للتو ، يجب أن يكون لجدول السجل هذا ، إذا كنت تريد الاستعلام عنه ، نطاقًا زمنيًا ، فيمكنك أن تحدد في صفحة الجدول هناك أن مرشح النطاق الزمني يجب تطبيقه. إذا حاول شخص ما تشغيل استعلام لا يتضمن هذا الفلتر ، فسيوقفه في الواقع تحذير كبير ، وسيقول: "ربما يتعين عليك إضافة بعض SQL التي تبدو مثل هذا إلى استعلامك." ويمكنهم المتابعة إذا هم يريدون. لن نمنعهم تمامًا من استخدامه - إنه استعلام أيضًا ، بل يجب عليه ، في نهاية اليوم ، تشغيل الاستعلامات. لكننا وضعنا حاجزًا كبيرًا أمامهم ونقدم لهم اقتراحًا ، وهو اقتراح ملموس قابل للتطبيق لتعديل الاستعلام لتحسين أدائهم.

نحن أيضًا نقوم بذلك تلقائيًا في بعض الحالات ، ومرة ​​أخرى من خلال مراقبة سجل الاستعلام. إذا رأينا أن بعضًا من النسبة المئوية الكبيرة بالفعل من طلبات البحث في هذا الجدول تستفيد من عامل تصفية معين أو شرط صلة معين ، فسنقوم بذلك بالفعل. سوف نشجع ذلك على التدخل. في الواقع ، حدث لي ذلك في مجموعة بيانات داخلية. لدينا بيانات العملاء ولدينا معرفات المستخدمين ، ولكن معرفات المستخدم ، لأنه نوع من - لدينا معرفات المستخدمين في كل عميل. إنه ليس فريدًا ، لذلك يجب عليك إقرانه بمعرف عميل من أجل الحصول على مفتاح ربط فريد. وكنت أكتب استعلامًا ، وحاولت تحليل شيء ما وظهر لي: "مهلاً ، يبدو أن كل شخص آخر ينضم إلى هذه الجداول بكل من معرف العميل ومعرف المستخدم. هل أنت متأكد أنك لا تريد أن تفعل ذلك؟ "وقد منعني في الواقع من إجراء بعض التحليلات غير الصحيحة. لذلك يعمل لكل من دقة التحليل وكذلك الأداء. لذلك هذا هو نوع من الطريقة التي نتعامل بها مع هذه المشكلة.

ريبيكا جوزويك: يبدو لي هذا فعالاً. قلت إنك لن تمنع الناس بالضرورة من زيادة الموارد ، لكن نوعًا ما يعلمهم أن ما يفعلونه قد لا يكون الأفضل ، أليس كذلك؟

ديفيد كراوفورد: نحن نفترض دائمًا أن المستخدمين ليسوا ضارين - نمنحهم أفضل النوايا - ونحاول أن نكون منفتحين على هذا النحو.

ريبيكا جوزويك: حسنًا. إليك سؤال آخر: "ما الفرق بين مدير الكتالوج ، كما هو الحال مع الحل الخاص بك ، وأداة MDM؟ أم أنها تعتمد فعليًا على مبدأ مختلف عن طريق توسيع اختيار جداول الاستعلام ، في حين أن MDM ستقوم بذلك تلقائيًا ، ولكن مع نفس المبدأ الأساسي لجمع البيانات الأولية. "

ديفيد كروفورد: نعم ، أعتقد أنه عندما أنظر إلى حلول MDM التقليدية ، فإن الفرق الأساسي هو الفلسفي. كل شيء عن من هو المستخدم. كما قلت في بداية عرضي التقديمي ، أعتقد أنه عندما تم تأسيسنا ، تم تأسيسنا بهدف تمكين المحللين من إنتاج رؤى أكثر ، وإنتاجهم بشكل أسرع ، ليكونوا أكثر دقة في الرؤى التي ينتج. لا أعتقد أن هذا كان هدف حل إدارة MDM تقليديًا. تميل هذه الحلول إلى استهداف الأشخاص الذين يحتاجون إلى إنتاج تقارير حول البيانات التي تم التقاطها إلى SCC أو داخليًا لنوع آخر من أغراض التدقيق. يمكن أن يُمكّن المحللين في بعض الأحيان ، لكن في أغلب الأحيان ، إذا كان سيمكن ممارسًا في عملهم ، فمن الأرجح أن يتم تمكين مهندس بيانات مثل DBA.

عندما تفكر في أشياء من وجهة نظر أحد المحللين ، يكون ذلك عندما تبدأ في إنشاء أداة استعلام لن تقوم بها أداة MDM أبدًا. وذلك عندما تبدأ في التفكير في الأداء بالإضافة إلى الدقة ، وكذلك فهم البيانات المتعلقة باحتياجات عملي. كل هذه الأشياء هي أشياء تبرز في أذهاننا عندما نصمم الأداة. إنه يذهب إلى خوارزميات البحث الخاصة بنا ، ويذهب إلى تصميم صفحات الكتالوج والقدرة على المساهمة بالمعرفة من جميع أنحاء المنظمة. يذهب الأمر إلى حقيقة أننا بنينا أداة الاستعلام وبنينا الكتالوج مباشرة داخلها ، لذلك أعتقد أنه يأتي بالفعل من ذلك. ما المستخدم هل لديك أولا في الاعتبار؟

ريبيكا جوزويك: حسنًا. هذا ساعد حقا في تفسير ذلك. الذي كان يحتضر للحصول على المحفوظات لأنه اضطر إلى المغادرة ، لكنه أراد حقا الإجابة على سؤاله. قال أنه تم ذكره في البداية أن هناك عدة لغات ، ولكن هل SQL هي اللغة الوحيدة التي يتم الاستفادة منها في مكون "إنشاء"؟

ديفيد كروفورد: نعم ، هذا صحيح. وأحد الأشياء التي لاحظتها ، حيث شهدت نوعًا ما انفجار أنواع قواعد البيانات المختلفة ، وقواعد بيانات المستندات ، وقواعد بيانات الرسم البياني ، ومخازن القيمة الرئيسية ، هي أنها قوية حقًا في تطوير التطبيقات. يمكن أن تخدم احتياجات معينة هناك بشكل جيد حقا ، بطرق أفضل من قواعد البيانات العلائقية يمكن.

ولكن عندما تعيدها إلى تحليل البيانات ، وعندما تعيدها إلى - عندما تريد تقديم تلك المعلومات إلى الأشخاص الذين سيقومون بإعداد تقارير مخصصة أو البحث المخصص في البيانات ، فإنهم يعودون دائمًا إلى علاقة ، على الأقل ، واجهة للبشر. جزء من ذلك لمجرد أن SQL هي اللغة المشتركة لتحليل البيانات ، وهذا يعني بالنسبة للبشر ، إنه أيضًا للأدوات التي تتكامل. أعتقد أن هذا هو السبب في أن لغة SQL على Hadoop شائعة جدًا وهناك العديد من المحاولات لحلها ، لأنه في نهاية اليوم ، هذا ما يعرفه الناس. من المحتمل أن يكون هناك ملايين الأشخاص الذين يعرفون كيفية كتابة SQL ، وأود أن المغامرة لا ملايين الذين يعرفون كيفية كتابة استعلام إطار خط أنابيب التجميع Mongo. وهي لغة قياسية تُستخدم للتكامل عبر مجموعة كبيرة ومتنوعة من الأنظمة الأساسية. لذلك كل ما يقال ، نادراً ما يُطلب منا الخروج منه لأن هذه هي الواجهة التي يستخدمها معظم المحللين ، وهو المكان الذي ركزنا عليه ، خاصة في الإنشاء ، على كتابة SQL.

أود أن أقول إن علم البيانات هو المكان الذي يغامرون فيه بالخروج إلى أقصى درجة ، ولذا فإننا نتلقى أسئلة عرضية حول استخدام Pig أو SAS. هذه هي الأشياء التي لا نتعامل معها بالتأكيد في "إنشاء" ، ونود تسجيلها في الكتالوج. وأرى أيضًا R و Python. لدينا عدة طرق أنشأنا بها واجهات يمكنك استخدام الاستعلامات المكتوبة في Alation داخل البرامج النصية R و Python ، لذلك ، غالبًا ما تكون عندما تكون عالِم بيانات وتعمل في لغة نصية ، مصدر البيانات في قاعدة بيانات علائقية. عليك أن تبدأ باستعلام SQL ثم تقوم بمعالجته وإنشاء رسومات بيانية داخل R و Python. وقمنا بإعداد حزم يمكنك استيرادها في تلك البرامج النصية التي تسحب الاستعلامات أو نتائج الاستعلام من Alation بحيث يمكنك الحصول على نوع من سير العمل المختلط هناك.

ريبيكا جوزويك: حسنًا ، عظيم. أعلم أننا مررنا قليلاً في أعلى الساعة ، وسأطرح سؤالًا أو سؤالين فقط. أعلم أنك تحدثت عن جميع الأنظمة المختلفة التي يمكنك الاتصال بها ، ولكن فيما يتعلق بالبيانات المستضافة خارجيًا والبيانات المستضافة داخليًا ، هل يمكن البحث معًا في طريقة العرض الفردية الخاصة بك ، في نظامك الأساسي الواحد؟

ديفيد كروفورد: بالتأكيد. هناك عدة طرق للقيام بذلك. أعني ، استضافت من الخارج ، وأتصور ، أحاول أن أفكر في ما قد يعنيه ذلك بالضبط. قد يعني ذلك قاعدة بيانات يستضيفها شخص ما في AWS لك. قد يعني مصدر بيانات عام من data.gov. نحن نتصل مباشرة بقواعد البيانات عن طريق تسجيل الدخول تمامًا مثل أي تطبيق آخر ، باستخدام حساب قواعد البيانات ، وهذه هي الطريقة التي نستخلص بها البيانات الوصفية. لذلك إذا كان لدينا حساب ولدينا منفذ شبكة مفتوح ، يمكننا الوصول إليه. وبعد ذلك عندما لا تتوفر لدينا هذه الأشياء ، لدينا شيء يسمى مصدر بيانات افتراضي ، يتيح لك بشكل أساسي دفع المستندات ، سواء تلقائيًا أو عن طريق كتابة الرابط الخاص بك أو عن طريق ملء ذلك عن طريق القيام حتى مثل تحميل ملف CSV ، لتوثيق البيانات جنبا إلى جنب مع البيانات الداخلية الخاصة بك. يحصل كل ذلك على محرك البحث. يصبح مرجعية داخل المقالات وغيرها من الوثائق والمحادثات داخل النظام. هذه هي الطريقة التي نتعامل بها عندما يتعذر علينا الاتصال مباشرة بنظام ما.

ريبيكا جوزويك: حسنًا ، هذا منطقي. سأطلق فقط سؤالًا واحدًا لك. أحد الحضور هو يسأل ، "كيف ينبغي التحقق من صحة محتوى كتالوج البيانات أو التحقق منها أو الحفاظ عليها ، كما يتم تحديث بيانات المصدر ، حيث يتم تعديل بيانات المصدر ، إلخ."

ديفيد كروفورد: نعم ، إنه سؤال نتلقاه كثيرًا ، وأعتقد أن أحد الأشياء التي - نحن من فلسفاتنا ، كما قلت ، لا نعتقد أن المستخدمين ضارون. نحن نفترض أنهم يحاولون المساهمة بأفضل المعرفة. إنهم لن يدخلوا ويضللوا الناس عمداً بشأن البيانات. إذا كانت هذه مشكلة في مؤسستك ، فربما ليس Alation الأداة المناسبة لك. ولكن إذا افترضت المستخدمين نوايا حسنة ، فسنفكر في الأمر كشيء حيث تأتي التحديثات ، وبعد ذلك عادة ما نقوم به هو وضع مسؤول عن كل كائن بيانات أو كل قسم من أقسام البيانات. ويمكننا إخطار هؤلاء الحكام عند إجراء تغييرات على البيانات الوصفية ويمكنهم التعامل معها بهذه الطريقة. يرون التحديثات تأتي ، والتحقق منها. إذا لم تكن صحيحة ، فيمكنهم العودة وتعديلها وإبلاغهم ، ونأمل في الوصول إلى المستخدم الذي ساهم في المعلومات ومساعدتهم على التعلم.

هذه هي الطريقة الأساسية التي نفكر بها عند القيام بذلك. هذا النوع من الاقتراحات من الحشد والإدارة من قبل الحكام ، لذلك لدينا بعض القدرات حول ذلك.

ريبيكا جوزويك: حسنًا. وإذا كان بإمكانك فقط أن تدع الأشخاص يعرفون أفضل طريقة للبدء مع Alation ، وأين يمكن أن يذهبون على وجه التحديد للحصول على مزيد من المعلومات. وأنا أعلم أنك تشارك هذا bit.ly. هل هذا هو أفضل مكان؟

ديفيد كروفورد: Alation.com/learnmore أعتقد أنها طريقة رائعة للذهاب. للاشتراك في عرض توضيحي ، يحتوي موقع Alation.com على الكثير من الموارد والأوراق البيضاء للعملاء والأخبار حول حلنا. لذلك أعتقد أنه مكان رائع للبدء. يمكنك أيضا البريد الإلكتروني.

ريبيكا جوزويك: حسنًا ، عظيم. وأنا أعلم ، الحضور ، آسف إذا لم أتوصل إلى جميع الأسئلة اليوم ، ولكن إذا لم يكن الأمر كذلك ، فسيتم إرسالها إلى David أو فريق المبيعات التابع له أو شخص ما في Alation ، حتى يتمكنوا بالتأكيد من المساعدة في الإجابة على أسئلتك والمساعدة في فهم ماذا تفعل Alation أو ما يفعلونه بشكل أفضل.

ومع ذلك ، أهل ، سأمضي قدما وأوقعنا. يمكنك دائمًا العثور على الأرشيف في InsideAnalysis.com. يمكنك أيضا العثور عليها في Techopedia.com. إنها تميل إلى التحديث بشكل أسرع قليلاً ، لذا تأكد من ذلك بالتأكيد. وشكراً جزيلاً لديفيد كراوفورد وديز بلانشفيلد وروبن بور اليوم. لقد كان البث الشبكي العظيم. ومع ذلك ، سأقدم لك الوداع. شكرا ، الناس. مع السلامة.

ديفيد كروفورد: شكرًا لك.

قوة الاقتراح: كيف يمكن لفهرس البيانات تمكين المحللين