অপটিক্যাল ক্যারেক্টার রিকগনিশন (ওসিআর) হলো ছবি হিসেবে থাকা কোনো ডকুমেন্টের লেখাকে সার্চেবল ও এডিটেবল লেখায় রূপান্তর করা। সাধারণত পিডিএফ, জেপিজি, পিএনজি, জিআইফ ফাইলে ছবি আকারে থাকা বাংলা লেখাকে কম্পোজকৃত লেখার অনুরূপ এডিটেবল টেক্সটে রূপান্তর করে ওসিআর। এই প্রকল্পের ‘বর্ণ ওসিআর’ বাংলা লেখাকে দারুণ অ্যাকুরেসিসহ শনাক্ত করতে পারে। ওসিআর সিস্টেমে কয়েকটি প্রধান কাজ এবং ডেলিভারেবল রয়েছে: ক) তিনটি ভিন্ন প্ল্যাটফর্মের জন্য একটি সম্পূর্ণ OCR এবং HWR: খ)সার্ভার ভিত্তিক/ ওয়েব ভিত্তিক, স্বতন্ত্র এবং মোবাইল প্ল্যাটফর্ম। গ) প্রসেসিং টুল সহ একটি ওসিআর সিস্টেম তৈরি করতে লেবেলযুক্ত ইমেজ কর্পাস
ওসিআর ইঞ্জিনে দুটি মডিউল: একটি মুদ্রিত বাংলা নথির জন্য এবং একটি হাতে লেখা বাংলা নথির জন্য। মুদ্রিত নথিগুলির জন্য তৈরি করা মডিউলটি অবশ্যই কম্পিউটারে রচিত, টাইপরাইটার রচিত এবং লেটারপ্রেস রচিত বাংলা নথিগুলি পরিচালনা করতে সক্ষম। হস্তাক্ষর মডিউলটি স্ক্যান করা হ্যান্ড-রাইটিং এবং স্টাইলাস দ্বারা রিয়েল-টাইম লাইভ রাইটিং উভয়ের সাথেই কাজ করবে। ওসিআর সিস্টেম অবশ্যই বিভিন্ন ধরনের বাংলা ফাইল, যেমন স্ক্যান করা বাংলা ফাইল(pdf/JPEG/PNG) এবং ডিজিটাল ক্যামেরা দ্বারা ধারণ করা বাংলা ফাইলে ছবিকে সম্পাদনাযোগ্য এবং সার্চেবল টেক্সট ডেটাতে রূপান্তর করতে সক্ষম মুদ্রিত বা হাতে লেখা বাংলা টেক্সট থাকবে যার মধ্যে বর্ণসংখ্যার অক্ষর, বিরাম চিহ্ন এবং অন্যান্য চিহ্ন শনাক্ত করতে। এগুলিতে কিছু মুদ্রিত এবং/অথবা হাতে লেখা ইংরেজি টেক্সট থাকলেও শনাক্ত করতে পারে ফাইলে ছবি, টেবিল, সংখ্যা, বুলেট, কিছু আরবি অক্ষর ইত্যাদি থাকতে পারে। ওসিআর সিস্টেম পুরানো বা নতুন ডকুমেন্ট নিয়ে কাজ করতে পারে(ব্রিটিশ কালপর্ব থেকে বর্তমান পর্যন্ত)। ব্রিটিশ সময় থেকে বর্তমান অবধি ইঞ্জিনকে ২০টি ভিন্ন জনপ্রিয় ফন্ট (কম্পিউটার কম্পোজ করার জন্য ১২টি ভিন্ন ফন্ট, টাইপরাইটারের জন্য ৩টি ভিন্ন ফন্ট এবং লেটারপ্রেস রচিত নথির জন্য ৫টি ভিন্ন ফন্ট) সমর্থন করতে পারে। ডকুমেন্টের ব্লকগুলিকে আলাদা করতে পারে। উদাহরণস্বরূপ, যদি একটি নথিতে পাঠ্য লাইন, গ্রাফিক্স এবং অন্যান্যগুলির একাধিক কলাম থাকে, তাহলে ভাল অ্যাকুরেসি পাওয়ার জন্য টেক্সট ব্লকগুলিকে আলাদা করে শনাক্ত করতে পারে। ওসিআর ইঞ্জিন অবশ্যই মূল নথির সাথে পাঠ্য, ছবি, কলাম, ফন্টের আকার, ফন্টের শৈলী, বুলেট, সংখ্যা, টেবিল এবং অন্যান্য অ-পাঠ্য আইটেমগুলির পরিপ্রেক্ষিতে বিন্যাসকৃত আউটপুটগুলি পুনরুত্পাদন করতে সক্ষম হতে হবে। ওসিআর ইঞ্জিন আউটপুটকে ইউনিকোড টেক্সট ডকুমেন্ট, এমএস ওয়ার্ড ডকুমেন্ট, এইচটিএমএল, ইপাব এবং সার্চযোগ্য পিডিএফ হিসাবে সংরক্ষণ করতে পারে। HWR ইঞ্জিনে অবশ্যই স্ক্রিন ড্র মোড এবং স্ক্রিন পপ-আপ বিকল্প থাকতে হবে। ইঞ্জিন অবশ্যই স্টাইলাস এবং টাচ স্ক্রিন মোডের সাথে সামঞ্জস্যপূর্ণ হতে হবে। OCR ইঞ্জিন অবশ্যই অনুচ্ছেদ, ছবির ক্যাপশন এবং প্রয়োজনীয় টাইপোগ্রাফিক বৈশিষ্ট্য যেমন বোল্ড, ইটালিক এবং আন্ডারলাইন সনাক্ত করতে সক্ষম হবে।