سنڌي او سي آر: هڪ بي انتها ڀلي خبر

سليمان وساڻ · 22 آگسٽ 2016

(سنڌي او سي آر: هڪ بي انتها ڀلي خبر)

اٽڪل ڇويهه سالن کان پوءِ سنڌي ٻوليءَ جي ڪمپيوٽنگ جو اهو دور شروع ٿيڻ وڃي رهيو آهي جيڪو مسلسل هڪ خواب سما هئو. سنڌي ٻولي ڪمپيوٽر تي لکڻ ۽ پڙهڻ کان پوءِ، ڪمپيوٽيشنل پروگرامنگ جي مشيني اک، سنڌي ٻوليءَ کي تصوير ۾ پڙهي، ۽ ان ۾ لکيل لفظن کي روڙي ٽيڪسٽ جي صورت ۾ آڻي. جنهن کي ٽيڪنيڪل ٻوليءَ ۾ او سي آر (Optical Character Recognition) سڏجي ٿو ان ۾ سنڌي لئنگئيج اٿارٽيءَ ۾ سنڌي ڪمپيوٽنگ جي ٽيم، ڪاميابيءَ جو پهريون ڏاڪو ٽپي اڳتي وڌي آهي.
هي آهي سنڌي او سي آر جو پهريون ”الفا ڏيک“، جنهن ۾ اوهان پاڻ ڏسو ته کاٻي پاسي تصوير ۾ لکيل سنڌي ٻوليءَ جا لفظ ساڄي پاسي ”ڪمپيوٽر جي اک“ ٻولي ۽ ٻوليءَ جا لفظ سڃاڻي ٽيڪسٽ ۾ سٺ سيڪڙو کان مٿي بهتر ڪري رکيا آهن.
سڄي دنيا جي سنڌين کي اها نهايت سهڻي خبر ڏيندي سنڌي لئنگئيج اٿارٽي مبارڪون پيش ڪري ٿي.
هاڻي جلد ئي اوهان سنڌي ڪتاب اسڪين ڪري هن پروگرامنگ جي مدد وٺي انهن کي ٽيڪسٽ ۾ بدلائي سگھو ٿا. هن دقيق ترين پروگرامنگ ۾ سنڌي لئنگئيج اٿارٽي جي هيٺين ٽيم مسلسل ڏينهن رات ڪم ڪري رهي آهي:

1. امر فياض ٻرڙو (مرڪزي خيال ڏيندڙ، ٽيزرايڪشن جي 3D پروگرامنگ ڪري رهيو آهي)
2. صائمه اصغر (باڪس ايڊٽنگ ۽ ڊيٽا ٽريننگ ۾ ڪمپيوٽر کي سيکاري رهي آهي)
3. انيس ڪاڪا (ڊيٽا کي سهيڙي رهي آهي)
4. فهد ميمڻ (متفرق ڪم ڪري رهيو آهي)

سنڌي او سي آر ۾ محترم شبير ڪنڀار صاحب جون ڪاوشون به شامل آهن جن ايم بي لطيفي فانٽ جون پراپرٽيون پئي درست ڪيون ۽ فانٽ کي سڌو رکيو.
هي ڳالهه سڀني دوستن جي آڏو رکون ٿا ته هن مهل صرف ايم بي لطيفي فانٽ جيڪو پهريون فانٽ آهي ان جي ٽريننگ هلي رهي آهي، جيڪو به شروعاتي مرحلي ۾ آهي، جلد ئي ٻين فانٽن جي ٽريننگ جو عمل شروع ڪيو ويندو، ۽ ان سان گڏ ايم بي لطيفي فانٽ جي بيٽا فيز واري او سي آر هن ئي سال اوهان سڀني لاءِ جاري ڪئي ويندي.

سنڌي لينگيوئيج اٿارٽي جي وال تان امر فياض جو لکيل اسٽيٽس

سليمان وساڻ · 22 آگسٽ 2016

(سنڌي او سي آر (Optical Character Recognition) بابت ضروري وضاحتون)
------------------------------------------------------------------------------

هي اوهان سنڌي او سي آر جي الفا ورزين جا جيڪي نتيجا ڏسي رهيا آهيو، ان بابت ۽ مجموعي طور تي سنڌي ٻوليءَ ۾ او سي آر واري چئلينج پروگرامنگ جي باري ۾ مون وٽ ڪئي فون ڪالون، ميسيج ۽ هتي فيس بڪ تي نياپا اچن ٿا. سو مناسب سمجھان ٿو ته او سي آر جي هن ورزين جي باري ۾ ڪجھ ضروري آگاهي اوهان سڀني دوستن جي سامهون رکان.
پهرين ڳالهه ته هيءَ سمجھي ڇڏيو، هن مهل سڄي دنيا ۾ عربيءَ سميت ان جي لکڻيءَ تي هلندڙ ٻين ٻولين جيئن فارسي، پشتو، پنجابي ۽ اردو آهي انهن جو هڪ به مڪمل ۽ برجستو او سي آر ٺهي نه سگھيو آهي. ان جو ثبوت اوهان گوگل ترجميڪاريءَ واري سرشتي ۾ پاڻ ئي ڏسي سگھو ٿا ته جتي ڪيميرا جو نشان آهي اتي عربي، فارسي ۽ اردو ٻوليءَ جي اچڻ مهل اهو نشان بيڪار ٿي ويندو آهي. ها باقي سعوديه، ايران ۽ پاڪستان ۾ لکين ڊالر خرچ ڪري عربي، فارسي ۽ اردوءَ جا اهڙا او سي آر ضرور مقامي سطحن تي ٺاهيا ويا آهن جيڪي صرف لوڪل مشين تي لڳي سگھن ٿا، ۽ مختلف فانٽن، سائيزن ۽ اسڪين ٿيل تصوير جي معياري چٽائيءَ نه هجڻ تي معذوري ڏيکارين ٿا. نتيجي طور تي انهن او سي آرن کي نه ته گوگل قبول ڪيو آهي نه ئي وري مائڪرو سافٽ قبول ڪرڻ لاءِ تيار آهي.
ٻي ڳالهه ته پاڻ واري سنڌي ٻوليءَ جي او سي آر تي هتي ڪجھ دوستن ڪافي ڪوششون ڪيون، جن مان هڪ دوست ته انهن پروجيڪٽن تي ماسٽر آف فلاسافيءَ جون ڊگريون به ورتيون پر شايد کين سنڌي ٻوليءَ جي نزاڪت ۽ عربي ٻوليءَ جي ڊجيٽائيزيشن جي معذورين بابت احساس نه هئو.
پيارا دوستو سنڌي لکت جيڪا عربيءَ الفابيٽ تي ٻڌل آهي ان ۾ نقطن ۽ اعرابن سان گڏ، هڪ هڪ اکر جون انگريزيءَ جيان ٻه شڪليون نه پر چار چار بيهڪون آهن. مثال، سنئين سڌي شڪل (س)، پهرين شڪل (سـ) وچين (ـسـ) آخري (ـس). انڪري سنڌي لکت عربيءَ جيان ڪجھ وڌيڪ پيچيده آهي. انگريزيءَ ۾ ته بس الله الله خير صلاح، هر اکر جون ٻه ئي شڪيلون ٿينديون آهن جيئن (A) ۽ (a). مٿان وري چئن نقطن جو آزار، جن جي ڪري جيئن ئي او سي آر جي انجڻ لفظن کي ٽه پاسائون ڏسي ۽ سڃاڻي رهي هئي ته نقطا هڪ ٻئي ۾ ڀاڪرين پئجي پيا وڃن ۽ ڏسڻ ۾ اهي پاڻ جهڙوڪ جدا لفظ جو ڏيک ڏين پيا. ان ڪري سنڌي ٻوليءَ جو او سي آر انهن لفظن کي سڃاڻڻ کان صفا نابري واري بيهي رهي ٿي. بهرحال ان مسئلي کي هڪ انتهائي منجھيل مڪينيزم جي ذريعي منهن ڏئي ويا سين.
خير! هاڻي اچون ٿا موجوده او سي آر جي الفا ورزين تي، سو دوستو هي ”او سي آر“ اڃا ان نئين ڄاول ٻار جيان آهي جيڪو هاڻي هاڻي پيٽ مان نڪتو آهي جنهن کي اڃا غسل ڏبو، ڪپڙا پارائبا، تڏهن اوهان هن کي پنهنجي هٿن ۾ کڻي سگھندا. يا ٻيو مثال ته هي اڃا نئين بيهاريل عمارت جيان آهي جنهن جون ڀتيون وغيره سرن يا بلاڪن جي مدد سان ٺهيون آهن، اڃا ان تي پلستر، رنگ روغن، در دريون پونديون، پوءِ وڃي ان ۾ رهي سگھجي ٿو.
ڇوته هي او سي آر اڃا هڪ فانٽ تي ٺهي رهيو آهي جيڪو آهي سنڌي فانٽن جي ماءُ فانٽ يعني ”ايم بي لطيفي“، جنهن کي ٿورو گھڻو هيڏي هوڏي ڪري جام سارا فانٽ ٻيا ٺاهيا ويا آهن پر انهن سڀني فانٽن جو بنيادي تاڃي پيٽو ان ”ايم بي لطيفي“ تي ئي ٻڌل آهي.
بهتر او سي آر بنيادي طور تي ٽن مرحلن ۾ ڪم ڪندو آهي.
1. هو سڀ کان پهريون پنهنجي آپٽڪ سرشتي سان اسڪين ٿيل يا ڪيميرا مان نڪتل تصوير کي مٿان کان هيٺ، هيٺان کان مٿي، ساڄي کان کاٻي، کاٻي کان ساڄي طرف آپٽيڪل زوم سان ڏسي وائسي سڃاڻي پوءِ پهريون کان ڄاڻايل اکرن جي تاڃي پيٽي سان ڀيٽي بس خام نتيجو ٽيڪسٽ جي صورت ۾ ڪڍي رکندو آهي. (ان مرحلي ۾ سرشتي کي ٿوري دير لڳندي آهي)
2. ان خام اکرن ۽ لفظن جي وري هِجي درست ڪري ۽ ڊڪشنريءَ جي مدد سان درستگي ڪري عبارت جي تصحيح ڪندو آهي.
3. آخر ۾ سڄي تت جون نشانيون، بيهڪون، جملن جي ترتيب وغيره ٺاهي نتيجو اوهان کي فٽ فاٽ ڪري ڏيندو آهي.
سنڌي ٻوليءَ جو او سي آر پهرين ڏاڪي مان گذري رهيو آهي. جنهن ۾ جيڪا اهم رڪاوٽ هئي سنڌي اکرن کي سڃاڻڻ ۽ نقطن جي ڀچجڻ واري سا حل ٿي چڪي آهي. (يعني ٻار ڄمي چڪو آهي يا عمارت اڀي ٿي چڪي آهي) باقي نتيجي ۾ آندل ٽيڪسٽ کي سهڻو سيبتو ڪرڻ باقي آهي.
هاڻي اچو ته حقيقي چئلينج کي سمجھون:
اسان او سي آر ڇو ٺاهي رهيا آهيون؟
نمبر هڪ: پراڻن بلاڪن وارب ڪمپازيٽرن جي ڇپيل ڪتابن جيڪي ڪمپيوٽر تي نه ڇپيا هئا، يا اهي ڪتاب جيڪي ايپل ڪمپيوٽرن تي ڪمپوز ڪيا ويا هئا، جن جون سافٽ ڪاپيون ميسر نه ٿيون ٿين، انهن کي اسڪين ڪري سافٽ ڪاپين ۾ منتقل ڪريون، ته جيئن سنڌي ٻوليءَ جو ادب، ڪتاب سڀ جو سڀ عمر ڀر محفوظ ٿي وڃن.
نمبر ٻيو: اهو او سي آر گوگل ۽ مائڪرو سافٽ کي موڪليون ته اهي اسان جي ٻوليءَ جو هي اهم پروگرام پنهنجي بنيادي تاڃي پيٽي ۾ رکن، ته جيئن سڄي دنيا جا ماڻهو سنڌي ٻوليءَ جي تصويري ڪتابن يا هدايتي بورڊن جون تصويرون ڪڍي انهن جو ترجمو پنهنجي ٻولين ۾ ڏسي سگھن.
هاڻي پهرين نمبر واري مقصد ۾ اوهان ڏسو ته اسي واري ڏهاڪي کان اڳ لکيل سڀ ئي ڪتاب بلاڪن تي لکيل هئا، ظاهر آهي ته اسان کي انهن بلاڪن واري ڇپائيءَ جهڙو ٻيو معياري فانٽ ٺاهڻو پوندو جيڪو خود هڪ محنت طلب ڪم آهي، سو ان ڪم لاءَ پياري شبير ڪنڀار جي مٿان اهو ٽاسڪ رکيل آهي ته جلدي اهڙا ٻه عدد فانٽ ٺاهي ته جيئن پراڻن ڇپيل ڪتابن کي او سي آر جي سرشتي مان گذاري انهن جي سافٽ ڪاپي تيار ٿي سگھي.
پيارا دوستو، هڪ ڳالهه سمجھي ڇڏيو ته سنڌي او سي آر، 1990 کان پوءِ سنڌي ڪمپيوٽنگ جو اهو انقلابي ڪم آهي جيڪو سنڌي ڪمپيوٽنگ کي اپ گريڊ ڪري ”سنڌي لئنگئيج انجنيئرنگ“ ۾ منتقل ڪري پيو. عربيءَ ٻوليءَ تي بيٺل ٻين ٻولين جيئن فارسي ۽ اردوءَ وارن ڪروڙين رپيا لاڳت ڪيا آهن، جتي وڏا پي ايڇ ڊي ماهر گھرائي انهن تي گذريل ڏهن سالن کان ڪم ڪرايو آهي ان جي باوجود به انهن ٻولين جو معياري او سي آر رليز ناهي ٿي سگھيو. سو پيارا دوستو، تڪڙ ڪم شيطان جو.... ايڏا اٻهرا به نه ٿجو... مان اوهان سڀني دوستن کي يقين ڏياران ٿو ته هن مهل سنڌي او سي آر جيڪو ٺهي رهيو آهي اهو ٻين ٻولين کان گھڻو ايڊوانس آهي... ۽ ڪوشش اها ئي آهي ته تمام گھٽ وقت ۾ اوهان کي بهترين نتيجا ڏئي.
وڌيڪ دعائن ۾ ياد.. ساٿ سلامت.

نيازمند
امر فياض ٻرڙو

سليمان وساڻ · 24 آگسٽ 2016

سنڌي ٻوليءَ جو اکر شناس/OCR

شبير ڪنڀار

سنڌي او سي آر _ سنڌي ٻوليءَ جي ٽيڪنالاجيءَ ۾ اچڻ واري 1987ع واري ايجاد کانپوءِ ٻي وڏي وِک آھي، او سي آر OCR (Optical Character Recognition) يعني تصويرن مان اکرن/لکت کي سڃاڻندڙ سافٽويئر، هيءُ اهڙو سافٽويئر آهي، جيڪو ھٿرادو ذھانت (Artificial Intelligence) تحت اڳ ۾سيکاريل ھوشياريءَ جي بنياد تي، ڪنھن ڪمپيوٽر/ ڪمپيوٽنگ ڊوائس ۾ ايتري تہ چالاڪي پئدا ڪري ٿو، جو اھو ڪمپيوٽر/ ڊوائس ڪنھن ڪئميرا مان نڪتل يا اسڪين ڪيل تصوير (Image) ۾ موجود لکيل اکري مواد کي سڃاڻي وٺندو آھي ۽ ڪتب آيل اکرن کي، تصوير مان روڙي، ھڪ لمحي ۾ پنھنجي ڊيٽابيس ۾ موجود معلومات سان ڀيٽي، بيھڪ جي نشانين سميت، واپس ھوبھو شڪل ۾ ڪمپوز ڪيل مواد ۾ مٽائي ڇڏيندو آھي، جنھن کي ڪاپي، پيسٽ ڪري يعني ٻيھر استعمال ڪري سگهبو آھي.
دنيا ۾ OCR جي مدد سان سياح روڊن تي لڳل بورڊن تي لکيل معلومات کي اکرن ۾ تبديل ڪري انھن کي ترجمو ڪري مطلب حاصل ڪرڻ لڳا آھن ۽ گهربل اکرن کي گوگل وسيلي سرچ/ڳولها لاءِ پڻ استعمال ڪرڻ عام ٿي ويو آھي. ڪنھن بہ ٻوليءَ جي مڪمل OCR ٺھڻ کانپوءِ لکيل مواد يا ڪتابن کي ڪمپوز ڪرڻ جي ضرورت ئي نہ رهندي آهي، پر گهربل ڪتاب کي اسڪين ڪري انجي تصويري عڪس/ Image کي هڪڙي ڪلڪ سان واپس ڪمپوز ٿيل ٽيڪسٽ ۾ مٽايو ويندو آھي، تنھنڪري ٻيھر ڪمپوز ڪرڻ کان، هي عمل تمام گهڻو بھتر آهي، ڇاڪاڻ تہ پروف ريڊنگ فني سٽاءُ وغيرہ ڪمپوزنگ جا وڏا مسئلا آهن، OCR ۾ خودڪار نظام تحت درست ٿي ويندا آهن. OCRجي مدد سان ئي دنيا جون وڏيون لائبرريون پنھنجي ڪتابن جا E-Book ايڊيشن پڌرا ڪرڻ ۾ ڪامياب ٿيون آهن. دنيا جي وڏي برٽش لئبريري پنھنجا ساڍا چوئيتاليھ لک ڪتاب 2017ع تائين ’گوگل بُڪس‘ ۽ ’گُڊ ريڊس‘ جي ڀائيواريءَ سان آن لائين ڪرڻ جي جيڪا رٿا جوڙي آهي، سا پڻ ڪتابن جي ٻيھر ڪمپوزنگ سان نہ پر OCR جي ڪري ئي ممڪن ٿي آهي.
سنڌي ٻوليءَ جي او سي آر OCR (Optical Character Recognition) تي ڪيترن ئي ماڻھن/ شاگردن مختلف جڳھين ۽ ڏيھي توڙي پرڏيھي مادر علمين ۾ عام طور/ پڙھڻ دؤران تمام گهڻيون ڪوششون ڪيون، ٻنھي صورتن، انفرادي توڙي يونيورسٽين جي سطح تي، او سي آر جي پروگرامنگ ڪئي وئي، پر اهو سڄو پورھيو فقط تحقيقي حدن تائين رهيو ۽ ان جو ڪو ڪنڪريٽ نتيجو نہ نڪري سگھيو. اڄ بہ اھڙا ’رٿائي رسرچ پيپرن جا نمونا‘ گوگلنگ وسيلي ڏسي سگهجن ٿا.
اھو چڱيءَ ريت ظاهر آهي تہ ڪنھن بہ ٻوليءَ جي OCR جھڙي ورچائيندڙ ۽ ٿڪائيندڙ پورھئي لاءِ ٻوليءَ سان عشق جي حد تائين پيار ڪندڙ تمام ذھين، اڻٿڪ ۽ برجستن ماڻھن تي مشتمل هڪ مضبوط ٽيم جي ضرورت ٿيندي آهي. اھڙي ٽيم جنھن ۾ ڪم ڪندڙ، پروگرامنگ جي پاسي کان تہ ڀڙ هجن ئي ھجن پر کين، ٻوليءَ جي استعمال ۽ ان جي تاڃي پيٽي جي ڀليءَ ڀت پروڙ پوندي هجي. سنڌي ٻوليءَ جي اها خوشنصيبي هئي جو ھڪ ئي وقت سنڌي ٻوليءَ جي تاڃي پيٽي/ گهاڙيٽي ۽ ڪمپيوٽر پروگرامنگ تي عبور رکندڙ، خيرپور ڄائي پياري امر فياض ٻرڙي (سنڌي ٻولي اٿارٽيءَ جي ڪمپيوٽر سيڪشن جو انچارج) ۽ سندس شاگردياڻي پنجاب جي شھرخوشاب جي ڄائي محترمہ صائمہ اصغر (مائڪروسافٽ وزيوئل اسٽوڊيو ۽ ڪور پروگرامنگ جي لائسنز يافتہ ڊولپر، سائوٿ ايشين ٻولين جي انجنيئرنگ جي ڪوڊيڪس ڊولپر) گڏجي ھن چئلينجنگ رٿا کي جون 2015ع تي هٿ ۾ کڻڻ جي ھمٿ ڪئي.
ھن کان پھرين OCR تي شروع ڪيل رٿائون، جيئن تہ ڪا ڪاميابي ماڻي نہ سگهيون ھيون، انڪري ھن رٿا ۾ ھٿ وجهڻ ڪو ھمٿائيندڙ فيصلو نہ ھو، پر ھڪ وڏو چئلينج ھو جنھن جي ڪاميابيءَ جو بنياد درست رٿابنديءَ ۽ مستقل مزاجيءَ تي مشتمل ھو، ڇاڪاڻ تہ ھيءَ ھڪ ڊگهي رٿا ھئي ۽ ٻيو تہ OCR تي ٿيل ڪمن ۾ ماڻھن جي ناڪامي بہ ڪو سٺو مثال نہ ھئي، تنھنڪري سڀني مثالن کي سامھون رکندي رٿا جي ڪمن جي ونڊ ورھاست کي ھيٺيئن طرح پاڻ ۾ ورھايو ويو:

ٻوليءَ لاءِ بنيادي پروگرامنگ، جنھن ۾ ٽيسرايڪٽ وسيلي باڪس ايڊيٽنگ جو ڪم، اکرن جي ٽہ پاسائين (3D) ڊگرين جو ڪم، ٻوليءَ جي مختلف شڪلين ۽ نمونن جنهن ۾ منفرد جملا، گھڻو استعمال ۾ ايندڙ لفظ، ڊڪشنري، اعراب ۽ ٽٻڪا، انهن جا صرف او سي آر لاءِ تصوراتي ڪوڊ رکڻ، هر اکر جي مختلف شڪلين (ب بـ ـبـ ـب) اکرن جي لگيچرز (اللہ، ﷴ، لا) جي ٽريننگ ڏيڻ وغيرہ جھڙن انتھائي پيچيدہ ڪمن کي امر فياض ۽ صائمہ گڏجي پنھنجي ذمي کنيو.
ٻوليءَ جي ڊيٽا کي گڏ ڪرڻ ۽ ڊڪشنريءَ ۾ ترتيب وغيرہ اھڙا ڪم آھن جيڪي انيس ڪاڪا ۽ فهد ميمڻ جي ڪيا ويا.
فونٽ بابت ٽيڪنيڪل ڪم اکرن جو پاڻ ۾ ڳانڍاپو، لگيچرز جي بناوت ۽ ڪوڊنگ تي مشتمل سڀئي ڪم ۽ فونٽ جي سٽاءَ، بيھڪ، ٻوليءَ ۾ ان جي استعمال ۽ OCR واسطي اکري مسئلن بابت سڀئي ڪم مون (شبير ڪنڀار) جي ذمي ۾ ڪيا ويا.

جڏھن 2 تہ ٻارنھن ٿيندا آھين تہ پوءِ 5 تہ ... ڪيترا ٿيندا اھو پاڻ حساب لڳايو، 5 ماڻھن تي مشتمل ھن ٽيم پنھنجي ڪم ۾ ڪيترو نور نچويو ھوندو ان جو اندازو ھن مان لڳائي سگهجي ٿو تہ ھن ڪم ۾ ڪتب آڻڻ لاءِ اڻ ڳڻ مک فائل آھن جن کي ھڪ ٻئي سان جوڙي ھڪ سرشتو ٺاھڻ لاءِ ئي لڳ ڀڳ، ڏيڍ سئو ڊائنامڪ لائبريري لنڪن/ڳنڍڻن جا فائل جدا آهن، جيڪي ھنن فائلن جو ربط هڪٻئي سان ڳنڍيندي نتيجن ڪڍڻ لاءِ مددگار طور ڪم ڪري رهيا آهن. ھتي فائلن جو تعداد انڪري ڄاڻايو ويو آھي تہ جيئن ڪم جي پيچدگيءَ جو اندازو ٿي سگهي ۽ خبر پوي تہ ھي ڪيترو انگهيل پورھيو آھي. مثال طور ھن ڳالهہ مان کڻي سمجهو تہ رڳو ٽريننگ فائيل جي ئي ماهيت جو اندازو کڻي لڳائجي، تہ ھينئن سولائيءَ سان سمجهي سگهجي ٿو تہ جيڪڏهن اهو ساڳيو فائل ورڊ ڊاڪيومينٽ ڏانھن موڪلجي ٿو تہ ان جا هن مھل تائين 7867 صفحا ٿين ٿا. ٻين فائلن جو تہ ڪو ڪاٿو ئي ڪونہ ٿو لڳائي سگھجي.
جيئن تہ ڇاپي ڪمن ۾ Typeface/font اکري ڏيک بنيادي حيثيت رکي ٿو، اوھان ڏٺو ھوندو تہ ڇاپي ڪمن ۾ اکرن جي جدا جدا نمونن تي مشتمل ليک شامل ھوندا آھن، خاص ڪري اکرن جي ھيڊنگ ٿلھن اکرن ۾ ھوندي آھي ۽ ٻي سڄي لکت سنھن اکرن ۾ ٿيندي آھي، اھو تہ ٿيو ساڳئي فونٽ جو جدا جدا ڏيک پر اسان وٽ اکرن جا ڪيترائي نمونا موجود آھن جيڪي لکت جي اسٽائيل/ڏيک کي سھڻي بڻائڻ لاءِ ڪتب اچن ٿا، ھن وقت تائين سنڌيءَ جا لڳ ڀڳ 300 کان مٿي فونٽ جاري ٿي چڪا آھن جيڪي مختلف ويبسائيٽن تي مفت موجود آھن. جن مان اڪثريت باڊي فونٽس جي آھي. سنڌي ٻوليءَ جي ڪمپيوٽر تي لکت کي 29 سال ٿيا آھن، ھنن عرصي ۾ ڪيترائي ڪتاب ڇاپيا ويا آھن پر انھن جون سافٽ ڪاپيون موجود ناھن، تنھنڪري بوقت ضرورت انھن ڪتابن کي OCR وسيلي ٻيھر سافٽ ۾ تبديل ڪرڻو پوندو تہ جيئن اسين، انھن جا اِي ايڊيشن ڏئي قومي ورثي کي خضري عمر ڏئي سگهون، انھيءَ سلسلي ۾ ئي ھن وقت ھڪ فونٽ ”ايم بي لطيفي“ جي OCR جوڙي شروعات ڪئي وئي آھي، جيڪو سڀني فونٽن جي ماءُ آھي. ھن وقت ھي فونٽ 387 گلفس تي مشتمل آھي، جنھن ۾ انگريزي اکرن، انگن، نشانين جا 147 گلف جڏھن تہ 240 گلف رڳو سنڌي ٻوليءَ جا آھن. ھن کي ھينئن سمجهو تہ اکرن جون جدا جدا شڪليون ٿينديون آھن جيئن ب جي عام شڪل آھي ’ب‘ شروعاتي شڪل اٿس ’بـ‘ وچين ’ـبـ‘ ۽ پڇاڙيءَ واري ’ـب‘ يا لام جي ( ل لـ، ـلـ، ـل) ھاڻي فونٽ ۾ انھن مڙني شڪلين کي جدا جدا طريقن سان استعمال جو طريقو اڳئي ڪمپيوٽر کي سيکاريل ھوندو آھي، تنھنڪري ڪمپيوٽر ڏسيل شڪل کڻي ڪمپوزر جي آرڊر موجب لفظ ٺاھيندو/لکندو ويندو آھي.
او سي آر ۾ عام فونٽ، ان جو وولٽ پروجيڪٽ، SVG فارميٽ ۽ فونٽ جي 3 پاسائين خصوصيتن وارا فائل درڪار ھوندا آھن. او سي آر OCR جيتري منفرد جملن، گھڻي کان گهڻو استعمال ۾ ايندڙ لفظن، ڊڪشنرين، اسپيل چيڪر، اعرابن اکرن جي لگيچرز (اللہ، ﷴ، لا) ۾ پاڻڀري ٿيندي ويندي، اوتري اسانکي اسڪين ڪيل اکرن جي تصويرن مان اکري مٽاسٽا جي نتيجن ۾ پرفيڪشن ملندي. ان سلسلي ۾ پاڻڀرائيءَ کانپوءِ OCR ۾ ھڪ ھڪ ڪري وڌيڪ فونٽن کي شامل ڪيو ويندو. ھن ڏس ۾ بلاڪن وارن فونٽن جوڙڻ جي پڻ ضرورت آھي، جيڪي ڪمپيوٽري ڇپائيءَ کان اڳ پريسن ۾ ڪتب ايندا ھئا، نہ رڳي اھو پر ان کان اڳ ھٿ اکري لکت وارا فونٽ پڻ جوڙڻا پوندا تہ جيئن اسان انھن کي بہ OCR ۾ شامل ڪري پنھنجو قديم تاريخي ورثو ڊجيٽائيز ڪري سگهون.
مان اھڙن مڙني فونٽن جوڙڻ جي امرفياض سان حامي ڀري آھي، رب گهريو تہ جلد اسان پنھنجي ٻوليءَ جي انھن ضرورتن جو پورائو ڪري وٺنداسين.

”سنڌي ٻولي، منھنجي ٻولي“

ايم ايڇ جمالي · 27 آگسٽ 2016

تمام وڏو ۽ اهم قدم آهي، الله واهي آهي اسانجي هن ٽيم جو...

سنڌي او سي آر: هڪ بي انتها ڀلي خبر

سليمان وساڻ

مينيجنگ ايڊيٽر

سليمان وساڻ

مينيجنگ ايڊيٽر

سليمان وساڻ

مينيجنگ ايڊيٽر

ايم ايڇ جمالي

سينيئر رڪن