الوصف الوظيفي
تبحث Mindrift عن مهندسي بيانات متقدمين في استخراج البيانات باستخدام بايثون للقيام بمشروع Tendem وقيادة سير عمل استخراج البيانات المتخصص ضمن نظامنا الهجين للذكاء الاصطناعي + البشر.
في هذه الوظيفة، بصفتك طيار الذكاء الاصطناعي - هذا ما نشير إليه في Mindrift - ستتعاون مع وكلاء Tendem الذين يتعاملون مع المهام المتكررة، بينما تقدم التفكير النقدي، وخبرة المجال، ومراقبة الجودة لتقديم نتائج دقيقة وقابلة للتنفيذ.
هذه الفرصة الحرة بدوام جزئي عن بُعد مثالية للمهنيين التقنيين الذين لديهم خبرة عملية في استخراج البيانات ومعالجتها.
ما نقوم به: تربط منصة Mindrift المتخصصين بمشاريع الذكاء الاصطناعي من مبتكري التكنولوجيا الرئيسيين.
مهمتنا هي فتح إمكانيات الذكاء الاصطناعي التوليدي من خلال الاستفادة من الخبرة الواقعية من جميع أنحاء العالم.
هذه وظيفة حرة لمشروع Tendem.
بصفتك مهندس بيانات متقدم في استخراج البيانات باستخدام بايثون، ستتعامل مع مهام استخراج البيانات التي تتطلب دقة تقنية لاستخراج البيانات من الويب ومعالجتها، باستخدام أدوات متنوعة مثل Apify وOpenRouter المقدمة من قبلنا إلى جانب أساليبك الخاصة.
المسؤوليات الرئيسية: امتلاك سير عمل استخراج البيانات من البداية إلى النهاية عبر مواقع الويب المعقدة، مع ضمان التغطية الكاملة، والدقة، والتسليم الموثوق لمجموعات البيانات المنظمة.
الاستفادة من الأدوات الداخلية (Apify، OpenRouter) إلى جانب سير العمل المخصص لتسريع جمع البيانات، والتحقق، وتنفيذ المهام مع تلبية المتطلبات المحددة.
ضمان استخراج موثوق من مصادر الويب الديناميكية والتفاعلية، وتكييف الأساليب حسب الحاجة للتعامل مع المحتوى المعروض بواسطة JavaScript وسلوك الموقع المتغير.
فرض معايير جودة البيانات من خلال فحوصات التحقق، وضوابط الاتساق عبر المصادر، والامتثال لمواصفات التنسيق، والتحقق المنهجي قبل التسليم.
توسيع عمليات استخراج البيانات لمجموعات البيانات الكبيرة باستخدام التجميع الفعال أو التوازي، ومراقبة الفشل، والحفاظ على الاستقرار ضد التغييرات الطفيفة في هيكل الموقع.
المتطلبات: خبرة لا تقل عن 5 سنوات في هندسة البيانات، استخراج البيانات، الأتمتة، أو تطوير البرمجيات (مطلوب).
درجة البكالوريوس أو الماجستير في الهندسة، الرياضيات التطبيقية، علوم الحاسوب، أو المجالات التقنية ذات الصلة تعتبر ميزة.
يجب أن يكون لدى المرشحين أساس تقني قوي وخبرة عملية في البرمجة النصية، والأتمتة، وسير العمل المدعوم بالذكاء الاصطناعي.
نحن نبحث عن متخصصين يمكنهم حل المشكلات غير البسيطة، والعمل بثقة مع LLMs، وجمع، هيكلة، والتحقق من البيانات من مصادر متنوعة بشكل منهجي.
نهج منهجي، واهتمام بالتفاصيل، والقدرة على العمل بشكل مستقل أمر ضروري.
خبرة قوية في استخراج البيانات باستخدام بايثون (BeautifulSoup، Selenium أو ما شابه)، بما في ذلك المحتوى الديناميكي (JS، AJAX، التمرير اللانهائي) وAPIs عبر البروكسيات.
قدرة مثبتة على استخراج البيانات من الهياكل المعقدة (التسلسلات الهرمية، الصفحات المؤرشفة، HTML غير المتسق).
خلفية قوية في تنظيف البيانات، والتطبيع، والتحقق، وتقديم مجموعات بيانات منظمة (CSV، JSON، Google Sheets).
خبرة مثبتة في التعامل مع آليات مكافحة الروبوتات وهياكل المواقع الديناميكية على نطاق واسع.
خبرة في البنية التحتية السحابية (AWS أو ما يعادلها) والتعبئة (Docker) كجزء من سير العمل الحقيقية.
خبرة عملية مع أطر LLM (LangChain، OpenRouter، أو ما شابه) المطبقة على مهام الأتمتة.
اهتمام قوي بالتفاصيل والتزام بدقة البيانات.
أخلاقيات العمل الذاتية مع القدرة على استكشاف الأخطاء وإصلاحها بشكل مستقل.
رابط إلى GitHub يعتبر ميزة.
إجادة اللغة الإنجليزية: مستوى متوسط أعلى (B2) أو أعلى (مطلوب).
توقعات الوقت للمشروع: بالنسبة لهذا المشروع، يُقدَّر أن المهام ستتطلب حوالي 10-20 ساعة في الأسبوع خلال المراحل النشطة، بناءً على متطلبات المشروع.
هذه تقديرات، وليست عبء عمل مضمون، وتطبق فقط أثناء نشاط المشروع.
التعويض: في هذا المشروع، يمكن للمساهمين كسب ما يصل إلى 30 دولارًا في الساعة، اعتمادًا على مستوى مساهمتهم وسرعتها.
يختلف التعويض عبر المشاريع بناءً على النطاق، والتعقيد، والخبرة المطلوبة.
يرجى ملاحظة أن المشاريع الأخرى على المنصة قد تقدم مستويات كسب مختلفة بناءً على متطلباتها.
لقد تمت ترجمة هذا الإعلان الوظيفي بواسطة الذكاء الاصطناعي وقد يحتوي على بعض الاختلافات أو الأخطاء البسيطة.