كيف يتمكن الحاسوب من رؤية الأجسام؟

كيف يتمكن الحاسوب من رؤية الأجسام؟ - الرؤية الحاسوبية

أغسطس 10, 2020

كتابة : شفاء سعد

المصدر: https://www.cloudflight.io/projects/computer-vision-for-quality-assurance-1403/

مكن الله البشر من رؤية الأجسام من حولهم والتعرف عليها عن طريق حاسة البصر والإدراك العقلي، عمليات معقدة وكثيرة تتم في أجزاء لا تذكر من الوقت، ولأن أجهزة الحاسوب لا تمتلك هذه القدرات، قام البشر بمجهودات كبيرة بدأت منذ حوالي ٦ عقود في مجال يعرف بالرؤية الحاسوبية (Computer Vision)، سخروا فيه طاقات بحثية وتطبيقية كثيرة لتطوير قدرة الحاسوب على التعرف على الأجسام في الصور والفيديو.

ما هي الرؤية الحاسوبية؟

الرؤية الحاسوبية هي أحد أشهر مجالات الذكاء الاصطناعي، يتم من خلاله تدريب الحاسوب ليقوم بتمييز الأشياء بصريًا، حيث تستخدم الصور ومقاطع الفيديو لتدريب نماذج التعلم العميق التي ستعمل بعدها على التعرف على أجسام جديدة في صور ومقاطع فيديو لم يسبق لها مشاهدتها، وهكذا يصبح الحاسوب يعمل وكأنه يرى الأجسام من حوله.

في الأسفل -يسارًا- مثالٌ لصورة لرقم 8 كما نراها نحن على الحاسوب إن قمنا بتكبيرها، ونلاحظ أنها مكونة من عدد كبير من المربعات Pixels، وعلى اليمين ذات الصورة كما يراها الحاسوب، حيث يراها كمصفوفة أرقام، كل رقم يمثل قيمة لمربع من المربعات، وهو يحمل قيمة الضوء intensity لهذا المربع وعليه يحدد لون هذا المربع ومقدار سطوعه.

المصدر: https://www.analyticsvidhya.com/blog/2019/08/3-techniques-extract-features-from-image-data-machine-learning-python/

مراحل عمل الرؤية الحاسوبية؟

تختلف آلية عمل أنظمة الرؤية الحاسوبية باختلاف مجال تطبيقها وعوامل أخرى، وعمومًا، تشترك في معظم الخطوات الآتية:

1- تكوين الصور

يتم تكوين وجمع الصور في أول مرحلة من مراحل بناء أي نظام يعمل بالرؤية الحاسوبية، ويستخدم في هذا الكاميرات لجمع الصور ومقاطع الفيديو بمختلف أنواعها كالصور ثنائية الأبعاد وثلاثية الأبعاد والملونة والأحادية وغيرها، وتستخدم أجهزة أخرى غير الكاميرات كأجهزة التصوير المقطعي والرادارات.

تعمل أجهزة التصوير في هذه المرحلة عمل الحساسات، التي يطلب منها التقاط الضوء والعمق وغيره، ليتم لاحقًا العمل على هذه الالتقاطات لفهمها وتفسير ما تحتويه، وعند الرجوع للنموذج الأساسي وهو الإبصار عند الإنسان، نجد أن هذه الأجهزة تحاكي عمل العين البشرية، والتي بدورها تلتقط صورًا واشاراتٍ تنقلها للدماغ لتفسيرها والتعرف على ما تحتويه.

آلية تكوين الكاميرا للصور لجسم ما في ظل توفر مصدر للطاقة

2- المعالجة المسبقة

لابد من تجهيز الصور قبل استخراج أي معلومات منها عن طريق أنواع من المعالجة بهدف التأكد من أن الصور تتبع الفرضيات التي نضعها وملائمة للمرحلة التالية، وكلما كانت الصور ذا جودة عالية ومطابقة للفرضيات، كلما ساعد ذلك في استخراج معلومات أكثر دقة، ومن أمثلة عمليات المعالجة هذه تحسين مستوى السطوع، وتقليل التشويش، وتغيير مقاس الصورة، وتدوير الصورة عموديًا أو أفقيًا، وتحويل الصور من صور ملونة بنظام RBG/RGB إلى صور أحادية Grayscale، وغيرها من العمليات.

أمثلة على عمليات المعالجة المسبقة

المصدر: https://www.mathworks.com/help/images/contrast-enhancement-techniques.html

3- استخراج الخصائص

عندما نقول مجازًا أن الحاسوب يرى، فهو بالطبع لا يرى ألوان الصورة وما تحتويه من أجسام أو نصوص وغيرها، بل يرى مصفوفات من الأرقام كما تحدثنا سابقًا، يتعامل الحاسوب مع هذه الأرقام ليتعرف لاحقًا على خصائص مهمة، وتتحدد أهمية الخاصية بحسب المشكلة التي يعمل النظام على حلها، كالخطوط والأطراف وغيرها.

تحديد الأطراف لصورة عملات معدنية

المصدر: https://www.mathworks.com/discovery/edge-detection.html

4- تجزئة الصور وتحديد الأجسام

بعد استخراج الخصائص من الصور، يمكن عندها تحديد الأجزاء المهمة في الصورة والتي تعتمد على المشكلة التي يحلها النظام، مثلًا، النظام الذي يُعنى بقراءة الشفاه لمعرفة الكلام المنطوق سيهتم بتجزئة منطقة الفم وما حولها، ونظام يقوم بعد العملات المعدنية في الصور وتحديد فئاتها سيهتم بتحديد كل عملة وتحديد التفاصيل داخل العملة، وهكذا، في الصورة أسفل، يهتم بالنظام بتحديد منطقة الفم للقطة وعليها يستطيع تمييز أنها قطة وليست كلبًا أو كأسًا أو قبعة.

المصدر: cs231n.github.io

5- المعالجة عالية المستوى واتخاذ القرارات

بعد أن يصبح لدى الحاسوب المعلومات الكافية، حيث قام باستخراجها من الصور، وبحسب ما لديه من معرفة سابقة، سيحدد مالذي تحتويه الصورة وما القرار المقابل لهذا، مثلًا، في نظام يقوم بتصنيف الصور إلى واحد من ٤ أجسام، قطة أو كلب أو قبعة أو كأس (كما في الصورة السابقة)، سيحدد بنسب متفاوتة قراره تجاه كل تصنيف، ولاتخاذ القرار، سيقوم النظام بترجيح التصنيف ذي النسبة الأعلى ليكون هو التصنيف الذي يعتمده لهذه الصورة، وفي نظام في مصنع يقوم بتحديد إذا ما كانت القطع سليمة أو معطوبة، سيعطي قرارًا إما بالحكم على القطعة بأنها سليمة فتبقى، أو معطوبة فيتم استبعادها.

تطبيقات للرؤية الحاسوبية

للرؤية الحاسوبية تطبيقات كثيرة من حولنا، يتميز مجال الرؤية الحاسوبية بتطبيقات شيقة وملفتة، حيث يقوم فيها الحاسوب بأداء مبهر، ومن الأمثلة على هذه التطبيقات:

أنظمة التعرف على الأحرف (OCR-based systems) والتي تستطيع استخراج النصوص من الصور.
الأنظمة المساعدة في قطاع التجزئة لتحديد كميات البضائع على الأرفف وأنظمة الخدمة الذاتية للدفع.
أنظمة المراقبة والأنظمة المساعدة في إدارة الحشود.
أنظمة السيارات ذاتية القيادة والتي تستطيع تمييز الأشخاص وعلامات الطريق وغيرها.
الأنظمة الطبية المساعدة لاكتشاف الأمراض عن طريق الصور أو التصوير الاشعاعي.
أنظمة تحديد مخالفة استعمال الهاتف المحمول أثناء القيادة، ورصد لوحات السيارات المخالفة.

مع انتشار الكاميرات وأجهزة الهاتف المحمول وتوفر البيانات البصرية، حيث وبحسب الاحصاءات فإن المستخدمين على الانترنت يقومون بمشاركة ٣ مليار صورة يوميًا، ومع تطور القدرات الحاسوبية لاستيعاب متطلبات التعلم العميق، أصبح المجال أوسع وأسهل لتطبيق الرؤية الحاسوبية في مجالات عديدة، ولتطوير أداء الأنظمة التي تعمل في هذا المجال، ولا تنحصر تطبيقات الرؤية الحاسوبية في الأمثلة والمجالات المذكورة، بل تمتد لمجالات أخرى، ولا يزال المجال ينمو ويتطور.

المصادر:

بحث هذه المدونة الإلكترونية

منصة فِهم للذكاء الإصطناعي