حصلت شركة Data Lakehouse Onehouse على 35 مليون دولار للاستفادة من ثورة GenAI
بالكاد يمكنك قضاء ساعة هذه الأيام دون القراءة عن الذكاء الاصطناعي التوليدي. في حين أننا لا نزال في المرحلة الجنينية لما أطلق عليه البعض “المحرك البخاري” للثورة الصناعية الرابعة، ليس هناك شك في أن “GenAI” يتشكل لتحويل كل صناعة تقريبًا – من التمويل والرعاية الصحية إلى القانون وما هو أبعد من ذلك. .
قد تجتذب التطبيقات الرائعة التي تواجه المستخدم معظم الضجة، لكن الشركات التي تدعم هذه الثورة هي المستفيدة الأكبر حاليًا. في هذا الشهر فقط، أصبحت شركة صناعة الرقائق Nvidia لفترة وجيزة الشركة الأكثر قيمة في العالم، بقيمة 3.3 تريليون دولار مدفوعة بشكل كبير بالطلب على قوة حوسبة الذكاء الاصطناعي.
ولكن بالإضافة إلى وحدات معالجة الرسومات، تحتاج الشركات أيضًا إلى بنية تحتية لإدارة تدفق البيانات – للتخزين والمعالجة والتدريب والتحليل، وفي النهاية إطلاق العنان للإمكانات الكاملة للذكاء الاصطناعي.
إحدى الشركات التي تتطلع إلى الاستفادة من ذلك هي Onehouse، وهي شركة ناشئة في كاليفورنيا عمرها ثلاث سنوات أسسها فينوث تشاندار، الذي أنشأ مشروع Apache Hudi مفتوح المصدر أثناء عمله كمهندس بيانات في Uber. يجلب Hudi فوائد مستودعات البيانات إلى بحيرات البيانات، مما يؤدي إلى إنشاء ما أصبح يُعرف باسم “مستودع البيانات”، مما يتيح الدعم لإجراءات مثل الفهرسة وإجراء الاستعلامات في الوقت الفعلي على مجموعات البيانات الكبيرة، سواء كانت بيانات منظمة أو غير منظمة أو شبه منظمة .
على سبيل المثال، ستحتاج شركة التجارة الإلكترونية التي تجمع باستمرار بيانات العملاء التي تشمل الطلبات والتعليقات والتفاعلات الرقمية ذات الصلة إلى نظام لاستيعاب كل تلك البيانات والتأكد من تحديثها، مما قد يساعدها في التوصية بالمنتجات بناءً على معلومات المستخدم. نشاط. يتيح Hudi استيعاب البيانات من مصادر مختلفة بأقل قدر من زمن الوصول، مع دعم الحذف والتحديث والإدراج (“upsert”)، وهو أمر حيوي لحالات استخدام البيانات في الوقت الفعلي.
تعتمد Onehouse على ذلك من خلال مستودع بيانات مُدار بالكامل يساعد الشركات على نشر Hudi. أو، على حد تعبير تشاندار، “يبدأ استيعاب البيانات وتوحيدها في تنسيقات البيانات المفتوحة” التي يمكن استخدامها مع جميع الأدوات الرئيسية تقريبًا في علوم البيانات والذكاء الاصطناعي والأنظمة البيئية للتعلم الآلي.
قال تشاندار لـ TechCrunch: “تقوم Onehouse بإلغاء بناء البنية التحتية للبيانات منخفضة المستوى، مما يساعد شركات الذكاء الاصطناعي على التركيز على نماذجها”.
أعلنت Onehouse اليوم أنها جمعت 35 مليون دولار في جولة التمويل من السلسلة B حيث تقدم منتجين جديدين إلى السوق لتحسين أداء Hudi وتقليل تكاليف التخزين والمعالجة السحابية.
أسفل في بحيرة (البيانات).
أنشأ Chandar Hudi كمشروع داخلي داخل Uber في عام 2016، ومنذ أن تبرعت شركة نقل الركاب بالمشروع إلى مؤسسة Apache في عام 2019، تم تبني Hudi من قبل أمثال Amazon وDisney وWalmart.
غادر تشاندار أوبر في عام 2019، وبعد فترة قصيرة قضاها في شركة Confluent، أسس Onehouse. خرجت الشركة الناشئة من التخفي في عام 2022 بتمويل أولي قدره 8 ملايين دولار، وتبعت ذلك بعد فترة وجيزة بجولة تمويل أولى بقيمة 25 مليون دولار. تمت قيادة كلتا الجولتين بواسطة Greylock Partners و Addition.
وقد وحدت شركات رأس المال الاستثماري قواها مرة أخرى لمتابعة السلسلة B، على الرغم من أن شركة Craft Ventures التابعة لـ David Sacks تتصدر الجولة هذه المرة.
وقال مايكل روبنسون، الشريك في Craft Ventures، في بيان: “أصبحت بحيرة البيانات بسرعة هي البنية القياسية للمؤسسات التي ترغب في مركزية بياناتها لتشغيل خدمات جديدة مثل التحليلات في الوقت الفعلي، وتعلم الآلة التنبؤي، وGenAI”.
بالنسبة للسياق، تتشابه مستودعات البيانات وبحيرات البيانات في الطريقة التي تعمل بها كمستودع مركزي لتجميع البيانات. لكنهم يفعلون ذلك بطرق مختلفة: يعتبر مستودع البيانات مثاليًا لمعالجة البيانات التاريخية المنظمة والاستعلام عنها، في حين ظهرت بحيرات البيانات كبديل أكثر مرونة لتخزين كميات هائلة من البيانات الأولية في تنسيقها الأصلي، مع دعم أنواع متعددة من البيانات. البيانات والاستعلام عالي الأداء.
وهذا يجعل بحيرات البيانات مثالية لأحمال عمل الذكاء الاصطناعي والتعلم الآلي، حيث أنه من الأرخص تخزين البيانات الأولية المحولة مسبقًا، وفي الوقت نفسه، لديها دعم للاستعلامات الأكثر تعقيدًا لأنه يمكن تخزين البيانات في شكلها الأصلي.
ومع ذلك، فإن المقايضة عبارة عن مجموعة جديدة تمامًا من تعقيدات إدارة البيانات، مما يهدد بتدهور جودة البيانات نظرًا للمجموعة الواسعة من أنواع البيانات وأشكالها. وهذا جزئيًا ما يسعى Hudi إلى حله من خلال جلب بعض الميزات الرئيسية لمستودعات البيانات إلى بحيرات البيانات، مثل معاملات ACID لدعم سلامة البيانات وموثوقيتها، بالإضافة إلى تحسين إدارة البيانات الوصفية لمجموعات بيانات أكثر تنوعًا.
نظرًا لأنه مشروع مفتوح المصدر، يمكن لأي شركة نشر Hudi. نظرة خاطفة سريعة على الشعارات الموجودة على موقع Onehouse تكشف عن بعض المستخدمين المثيرين للإعجاب: AWS، وGoogle، وTencent، وDisney، وWalmart، وBytedance، وUber، وHuawei، على سبيل المثال لا الحصر. لكن حقيقة أن مثل هذه الشركات ذات الأسماء الكبيرة تستفيد من Hudi داخليًا تشير إلى الجهد والموارد المطلوبة لبنائها كجزء من إعداد بحيرة البيانات المحلية.
وقال تشاندار: “بينما توفر Hudi وظائف غنية لاستيعاب البيانات وإدارتها وتحويلها، لا يزال يتعين على الشركات دمج حوالي ستة أدوات مفتوحة المصدر لتحقيق أهدافها المتمثلة في مستودع بيانات عالي الجودة”.
ولهذا السبب تقدم Onehouse منصة سحابية أصلية مُدارة بالكامل تعمل على استيعاب البيانات وتحويلها وتحسينها في جزء صغير من الوقت.
وقال تشاندار: “يمكن للمستخدمين تشغيل بحيرة البيانات المفتوحة وتشغيلها في أقل من ساعة، مع إمكانية التشغيل البيني واسعة النطاق مع جميع الخدمات السحابية الأصلية والمستودعات ومحركات بحيرة البيانات”.
كانت الشركة خجولة بشأن تسمية عملائها التجاريين، باستثناء الزوجين المدرجين في دراسات الحالة، مثل يونيكورن الهندي أبنا.
وقال تشاندار: “باعتبارنا شركة شابة، فإننا لا نشارك القائمة الكاملة للعملاء التجاريين لشركة Onehouse علنًا في هذا الوقت”.
مع وجود مبلغ جديد قدره 35 مليون دولار في البنك، تعمل Onehouse الآن على توسيع منصتها باستخدام أداة مجانية تسمى Onehouse LakeView، والتي توفر إمكانية المراقبة في وظائف Lakehouse للحصول على رؤى حول إحصائيات الجدول والاتجاهات وأحجام الملفات وتاريخ المخطط الزمني والمزيد. ويعتمد هذا على مقاييس إمكانية المراقبة الحالية التي يوفرها مشروع Hudi الأساسي، مما يوفر سياقًا إضافيًا لأعباء العمل.
قال تشاندار: “بدون LakeView، يحتاج المستخدمون إلى قضاء الكثير من الوقت في تفسير المقاييس وفهم المجموعة بأكملها بعمق للسبب الجذري لمشكلات الأداء أو عدم الكفاءة في تكوين خط الأنابيب”. “يقوم LakeView بأتمتة هذا ويوفر تنبيهات عبر البريد الإلكتروني بشأن الاتجاهات الجيدة أو السيئة، وتحتاج إدارة البيانات المميزة إلى تحسين أداء الاستعلام.”
بالإضافة إلى ذلك، تقوم Onehouse أيضًا بإطلاق منتج جديد يسمى Table Optimizer، وهي خدمة سحابية مُدارة تعمل على تحسين الجداول الموجودة لتسريع عملية استيعاب البيانات وتحويلها.
“مفتوحة وقابلة للتشغيل المتبادل”
ليس هناك تجاهل لعدد لا يحصى من اللاعبين الآخرين ذوي الأسماء الكبيرة في الفضاء. تتبنى شركات مثل Databricks وSnowflake بشكل متزايد نموذج Lakehouse: في وقت سابق من هذا الشهر، أفادت التقارير أن Databricks خصصت مليار دولار للاستحواذ على شركة تدعى Tabular، بهدف إنشاء معيار مشترك للبحيرة.
لقد دخلت Onehouse مجالًا ساخنًا بالتأكيد، لكنها تأمل أن يساعدها تركيزها على نظام “مفتوح وقابل للتشغيل المتبادل” والذي يجعل من السهل تجنب تقييد البائع في مساعدتها على الصمود أمام اختبار الزمن. إنها تعد بشكل أساسي بالقدرة على جعل نسخة واحدة من البيانات يمكن الوصول إليها عالميًا من أي مكان تقريبًا، بما في ذلك خدمات Databricks وSnowflake وCloudera وAWS الأصلية، دون الحاجة إلى إنشاء صوامع بيانات منفصلة على كل منها.
كما هو الحال مع Nvidia في مجال GPU، لا يمكن تجاهل الفرص التي تنتظر أي شركة في مجال إدارة البيانات. البيانات هي حجر الزاوية في تطوير الذكاء الاصطناعي، وعدم وجود ما يكفي من البيانات الجيدة هو السبب الرئيسي وراء فشل العديد من مشاريع الذكاء الاصطناعي. ولكن حتى عندما تكون البيانات متوافرة بكميات كبيرة، لا تزال الشركات بحاجة إلى البنية التحتية لاستيعابها وتحويلها وتوحيدها لجعلها مفيدة. وهذا يبشر بالخير بالنسبة لـ Onehouse وأمثاله.
“من ناحية إدارة البيانات ومعالجتها، أعتقد أن البيانات عالية الجودة المقدمة من خلال أساس قوي للبنية التحتية للبيانات ستلعب دورًا حاسمًا في تحويل مشاريع الذكاء الاصطناعي هذه إلى حالات استخدام إنتاجية في العالم الحقيقي – لتجنب القمامة- قال تشاندار: “من مشاكل البيانات”. “لقد بدأنا نرى مثل هذا الطلب لدى مستخدمي مستودعات البيانات، حيث يكافحون لتوسيع نطاق معالجة البيانات واحتياجات الاستعلام لبناء تطبيقات الذكاء الاصطناعي الأحدث هذه على بيانات على مستوى المؤسسة.”
اكتشاف المزيد من موقع خبرة التقني
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.