الوصف الوظيفي
تبحث شركة مايندريفت عن مهندسي بيانات متقدمين في استخراج البيانات باستخدام بايثون للعمل في مشروع تندم ودفع تدفقات استخراج البيانات المتخصصة ضمن نظامنا الهجين الذي يجمع بين الذكاء الاصطناعي والبشر.
في هذا الدور، كطيار ذكائي - وهو الاسم الذي نطلقه على هذا الدور في مايندريفت - ستتعاون مع وكلاء تندم الذين يتعاملون مع المهام المتكررة، بينما تقدم التفكير النقدي، والخبرة في المجال، ومراقبة الجودة لتقديم نتائج دقيقة وقابلة للتنفيذ.
هذه الفرصة بدوام جزئي عن بُعد مثالية للمهنيين التقنيين ذوي الخبرة العملية في استخراج البيانات ومعالجتها.
ما نقوم به: تربط منصة مايندريفت المتخصصين بمشاريع الذكاء الاصطناعي من مبتكري التكنولوجيا الرئيسيين.
مهمتنا هي فتح إمكانيات الذكاء الاصطناعي التوليدي من خلال الاستفادة من الخبرة الواقعية من جميع أنحاء العالم.
هذه وظيفة حرة لمشروع تندم.
كمهندس بيانات متقدم في استخراج البيانات باستخدام بايثون، ستتعامل مع مهام استخراج البيانات التي تتطلب دقة تقنية لاستخراج البيانات من الويب ومعالجتها، باستخدام أدوات متنوعة مثل Apify وOpenRouter المقدمة من قبلنا إلى جانب أساليبك الخاصة.
المسؤوليات الرئيسية: امتلاك تدفقات استخراج البيانات من البداية إلى النهاية عبر مواقع الويب المعقدة، مع ضمان تغطية كاملة، ودقة، وموثوقية تسليم مجموعات البيانات المنظمة.
الاستفادة من الأدوات الداخلية (Apify، OpenRouter) إلى جانب تدفقات العمل المخصصة لتسريع جمع البيانات، والتحقق، وتنفيذ المهام مع تلبية المتطلبات المحددة.
ضمان استخراج موثوق من مصادر الويب الديناميكية والتفاعلية، وتكييف الأساليب حسب الحاجة للتعامل مع المحتوى المعروض بواسطة JavaScript وسلوك الموقع المتغير.
فرض معايير جودة البيانات من خلال فحوصات التحقق، وضوابط تناسق المصادر المتعددة، والالتزام بمواصفات التنسيق، والتحقق المنهجي قبل التسليم.
توسيع عمليات الاستخراج لمجموعات البيانات الكبيرة باستخدام دفعات فعالة أو توازي، ومراقبة الفشل، والحفاظ على الاستقرار ضد التغييرات الطفيفة في هيكل الموقع.
المتطلبات: خبرة لا تقل عن 5 سنوات في هندسة البيانات، أو استخراج البيانات، أو الأتمتة، أو تطوير البرمجيات (مطلوب).
درجة البكالوريوس أو الماجستير في الهندسة، أو الرياضيات التطبيقية، أو علوم الكمبيوتر، أو المجالات التقنية ذات الصلة تعتبر ميزة.
يجب أن يتمتع المرشحون بأساس تقني قوي وخبرة عملية في البرمجة النصية، والأتمتة، وتدفقات العمل المدعومة بالذكاء الاصطناعي.
نحن نبحث عن متخصصين يمكنهم حل المشكلات غير البسيطة، والعمل بثقة مع نماذج اللغة الكبيرة، وجمع البيانات، وتنظيمها، والتحقق منها من مصادر متنوعة بشكل منهجي.
نهج منهجي ودقيق وقدرة على العمل بشكل مستقل أمران أساسيان.
خبرة قوية في استخراج البيانات باستخدام بايثون (BeautifulSoup، Selenium أو ما شابه)، بما في ذلك المحتوى الديناميكي (JS، AJAX، التمرير اللانهائي) وواجهات برمجة التطبيقات عبر الوكلاء.
القدرة المثبتة على استخراج البيانات من الهياكل المعقدة (التسلسلات الهرمية، الصفحات المؤرشفة، HTML غير المتسق).
خلفية قوية في تنظيف البيانات، والتطبيع، والتحقق، وتقديم مجموعات بيانات منظمة (CSV، JSON، جداول بيانات Google).
خبرة مثبتة في التعامل مع آليات مكافحة الروبوتات وهياكل المواقع الديناميكية على نطاق واسع.
خبرة في البنية التحتية السحابية (AWS أو ما يعادلها) والتعبئة (Docker) كجزء من تدفقات العمل الحقيقية.
خبرة عملية مع أطر نماذج اللغة الكبيرة (LangChain، OpenRouter، أو ما شابه) المطبقة على مهام الأتمتة.
اهتمام قوي بالتفاصيل والتزام بدقة البيانات.
أخلاقيات العمل المستقلة مع القدرة على حل المشكلات بشكل مستقل.
رابط إلى GitHub يعتبر ميزة.
إتقان اللغة الإنجليزية: مستوى فوق المتوسط (B2) أو أعلى (مطلوب).
توقعات الوقت للمشروع: بالنسبة لهذا المشروع، يُقدر أن المهام ستتطلب حوالي 10-20 ساعة في الأسبوع خلال المراحل النشطة، بناءً على متطلبات المشروع.
هذه تقديرات، وليست عبء عمل مضمون، وتنطبق فقط أثناء النشاط الفعلي للمشروع.
التعويض: في هذا المشروع، يمكن للمساهمين كسب ما يصل إلى 25 دولارًا في الساعة، اعتمادًا على مستوى مساهمتهم وسرعتها.
يختلف التعويض عبر المشاريع بناءً على النطاق، والتعقيد، والخبرة المطلوبة.
يرجى ملاحظة أن المشاريع الأخرى على المنصة قد تقدم مستويات كسب مختلفة بناءً على متطلباتها.
لقد تمت ترجمة هذا الإعلان الوظيفي بواسطة الذكاء الاصطناعي وقد يحتوي على بعض الاختلافات أو الأخطاء البسيطة.