Style guide Workgroups

বাংলা স্টাইল গাইড

বাংলা বর্ণ ও কোড-পয়েন্ট প্রমিতকরণ

কম্পিউটারের মাধ্যমে মুদ্রণ ও টাইপের কাজ শুরু হয় আসকি/আনসি ভিত্তিক লেখন-পদ্ধতির মাধ্যমে। ইন্টারনেট, মোবাইলফোনে বাংলা ভাষার মতো সকল ভাষা লেখা হয় ইউনিকোডের মাধ্যমে। কিন্তু ইউনিকোডে বাংলা লিখতে গিয়ে কয়েকটি সমস্যা তৈরি হয়েছে। যেমন, ইউনিকোড পদ্ধতিতে ড়, ঢ়, য়—এই তিনটি বাংলা বর্ণ নোকতার মাধ্যমে লেখার কথা বলা রয়েছে। এর কারণ হলো, ইউনিকোড তৈরি ও ব্যবস্থাপনার আন্তর্জাতিক সংগঠন ইউনিকোড কনসোর্টিয়াম ইউনিকোডে বাংলা ভাষার সাংকেতিক ব্যবস্থা বা কোডসেট প্রথম থেকে প্রস্তাব করেছে ভারতের হিন্দি লিপি দেবনাগরীর অনুকরণে। এ কারণে বর্ণগুলো লিখতে ড, ঢ ও য-এর নিচে নোকতা অর্থাৎ বাড়তি একটা ডট (.) বা ফুটকি দিতে হবে। বাংলাদেশ বিদ্যাসাগরের রীতি অনুসারে এই তিনটি বর্ণকে একক বর্ণ হিসেবে দেখে থাকে। বাংলা লেখার জন্য ব্যবহারকারীদের স্বাভাবিক অভ্যাস হলো, এ-কার, ই-কার, ঈ-কার কখনো বর্ণের আগে, কখনো বর্ণের পরে এমন দ্বিধা নিয়ে টাইপ করতে হচ্ছে। বাংলা ভাষায় ব্যবহৃত যতিচিহ্ন দাঁড়ির বদলে এসেছে দেবনাগরী বর্ণমালার মোটা ও দীর্ঘ দাঁড়ি। এতে বাংলা ভাষার দ্বৈত দাঁড়ি রাখা হয়নি। বাংলাদেশি টাকার চিহ্নকে অভিহিত করা হয়েছে ‘বেঙ্গলি রুপি’ হিসেবে। ইউনিকোডে বাংলা ভাষার প্রকৃত প্রতিফলন ঘটেনি। ফলে বাংলাদেশ মান তৈরি করা প্রয়োজন। যাতে বিদেশি মান তৈরিকারণ সংস্থাগুলো বাংলাদেশের স্থানীয় মানকে অনুসরণ বা পর্যালোচনা করতে পারে

 ডব্লিউজির কার্যপরিধি:

 ১. বাংলা কোড পয়েন্টের একটি নিজস্ব তালিকা তৈরি করা ২. বিশেষ ক্যারেক্টারের ক্ষেত্রে প্রমাণক হিসেবে ঐতিহাসিক নমুনার ছবি যুক্ত করা।

কম্পিউটারে বাংলা টাইপফেসের প্রমিতকরণ

বাংলা বিভিন্ন ফন্ট বিভিন্ন সংখ্যক গি্লফ সহযোগে তৈরি হয়েছে। কোনো ফন্টের ক্যারেক্টার/গি্লফের সংখ্যা বেশি কোনোটায় কম। ফলে কোনো শব্দের বানান কোনো ফন্ট দিয়ে লেখা যায় না। এবং এক ফন্ট থেকে অন্য ফন্টে কনভার্ট করার সময়ও ভেঙে যায়। আবার ভিজু্য়াল দিক থেকে বাংলা ফন্টগুলোর সমস্যা প্রকট। বিশেষ করে চন্দ্রবিন্দুর অবস্থান নিয়ে বিতর্ক রয়েছে, চন্দ্রবিন্দু কি কারের ওপরে বসবে নাকি বর্ণের ওপরে বসবে এই বিষয়ে দুই রকম ব্যবহার দেখতে পাওয়া যায়। বাংলা প্যারাগ্রাফ-ফন্টগুলোর মধ্যে সমন্বয় নেই। কোনো ফন্টের বার সাইজ অন্য ফন্টের বার সাইজ থেকে ভিন্ন। ইন্টার-লাইন স্পেসিং বা দুই লাইনের মাঝে ফাঁক থাকার পরিমাণের বিভিন্ন রূপ দেখতে পাওয়া যায়। ল্যাটিন, অ্যারাবিক ও ইন্ডিক স্ক্রিপ্টের সঙ্গে বাংলা ফন্টের সাইজেরও অসাঞ্জস্য দেখতে পাওয়া যায়। কেবল মুদ্রণের সৌন্দর্য নয়, মুদ্রণের ফর্মার হিসাবও এই বিষয়গুলোর সঙ্গে সম্পর্কযুক্ত। কোন ফন্টে কোন সাইজে এবং কোন মার্জিনে একটি বই, আর্টিকেল বা পত্রিকার প্রবন্ধ ছাপার প্রয়োজন হলে তা কত ফর্মা হবে- এমন প্রাক্কলন আমরা করতে পারি না। এই কারণে বাংলা ফন্টের গি্লফগুলোর তালিকা ও এসবের স্টাইল শিট নির্ধারণ প্রয়োজন। 

কমিটির কার্যপরিধি: ১. মুদ্রণ, প্রকাশনা ও প্রাতিষ্ঠানিক কাজে ব্যবহৃত ফন্টগুলোতে লেখা বিভিন্ন সাইজ, লাইনস্পেস, চন্দ্রবিন্দু, হোমোগি্লফগুলোর পর্যালোচনা করবে ২. বিভিন্ন প্রকাশনা সফটওয়্যারে বাংলা ফন্ট ও প্যারাগ্রাফের রূপ বিশ্লেষণ করবে ৩. নতুন প্রাতিষ্ঠানিক ফন্ট তৈরির জন্য দৃশ্যগত বা ভিজুয়াল স্টাইলগাইড বিষয়ে একটি সুপারিশমালা প্রস্তাব করবে। ৪. বিভিন্ন ডেস্কটপ পাবলিশিং সফটওয়্যার ও ওয়েবে একই রীতির বাংলা প্রচলনের জন্য করণীয় সুপারিশ করবে।

অনলাইনে ব্যবহৃত বাংলা বানান প্রমিতকরণ

 বাংলা স্পেলচেকার ও বাংলা করপাস তৈরি করতে গিয়ে বাংলা বানানের নানা রূপভেদ পরিলক্ষিত হয়েছে। ডিজিটাল জগতে বাংলা বানানের একটি মান্যরূপ তৈরির লক্ষ্যে কার্যক্রম চলমান রয়েছে। বানানের ক্ষেত্রে বাংলাদেশ কম্পিউটার কাউন্সিল বাংলা একাডেমির বানান রীতিকে অনুসরণ করে থাকে। তবে একাডেমির বিভিন্ন অভিধানে (যেমন ‘ব্যাবহারিক’, প্রমিত, আধুনিক প্রভৃতি) এবং বিভিন্ন সংস্করণে কিছু বানানের ভিন্ন ভিন্ন বানানরীতি থাকার কারণে ব্যবহারকারীগণ বিভ্রান্ত হচ্ছে। সরকারি প্রকাশনায় বাংলা ভাষা ব্যবহারের জন্য জনপ্রশাসন মন্ত্রণালয়ের বাংলা ভাষা বাস্তবায়ন কোষ কাজ করছে। ন্যাশনাল কারিকুলাম টেক্সট বোর্ড পাঠ্যপুস্তকের জন্য একটি বানান বিধি ও অর্থোগ্রাফি অনুসরণ করে তাকে। বাংলা ভাষার দুটি প্রকাশনা প্রথম আলো এবং আনন্দবাজার প্রকাশনা স্বতন্ত্র বানান বিধি অনুসরণ করে থাকে। ডিজিটাল মিডিয়ার জন্য একটি প্রমিতরূপ অথবা শুদ্ধ-বিকল্প রূপের তালিকা থাকা প্রয়োজন। যা একটি স্পেলচেকার তৈরি করতে ভূমিকা রাখবে। কার্যকর ভাষা প্রযুক্তির জন্য ভাষার প্রমিত ব্যবহার বিধি থাকা প্রয়োজন। এবং ধরনের  বানান বিষয়ে সুপারিশ থাকা প্রয়োজন। যেমন,  ক. বহু চর্চিত কয়েকটি শব্দ হলো ইদ/ঈদ, গরু/গোরু, শাদা/সাদা, খ্রিষ্টাণ/খ্রিস্টান প্রভৃতি বিষয় খ. ইংরেজি শব্দ কীভাবে লিখতে হবে তার একটি গাইডলাইন থাকা প্রয়োজন। যেমন, ইলেকট্রনিক্স/ ইলেক্ট্রনিক্স গ. বাংলা কমপাউন্ড শব্দ যেমন, তথ্য প্রযুক্তি ইত্যাদি ঘ.বিদেশি নামের বানান যেমন, মার্কেস/মার্কেজ, তলস্তয়/টলস্টয়, শেক্সপিয়ার/শেক্সপিয়র, পাডুকোন/পাড়ুকোন 

কার্যপরিধি: 

১. বাংলা বানানের বিতর্কিত শব্দগুলোর তালিকা তৈরি করবে এবং প্রমিত মান ও প্রযোজ্য ক্ষেত্রে বিকল্প গ্রহণযোগ্য মান এবং বর্জনীয় ও অশুদ্ধ রূপের তালিকা সুপারিশ করবে ২. ইংরেজি বিদেশি শব্দ, বিদেশি নামের বানান, কমপাউন্ড শব্দ লেখার রীতির খসড়া প্রস্তাব করবে

যন্ত্র সহায়ক নিয়মাবদ্ধ বাংলা শব্দ ও ভাষা  ব্যবহারের মান্য রূপ প্রণয়ন  

বাংলা টেক্সটের মধ্যে এমন কিছু শব্দ রয়েছে যেগুলো ইনফরমেশন রিট্রাইভ করার জন্য  জরুরি। যেমন, সন তারিখ লেখার বিভিন্ন রীতি, পরিমাপ করার বিভিন্ন মান, সম্বোধনের বিভিন্ন রীতি, বিভিন্ন অ্যাক্রোনিম প্রভৃতি এবং সিএলডিআর এ অন্তর্ভুক্ত বিভিন্ন স্ট্রাকচারড টেক্সট লেখার গ্রহণযোগ্য গাইডলাইন থাকা প্রয়োজন।  এছাড়া গবেষেণার তথ্যসূত্র লেখার বিভিন্ন রীতি রয়েছে যেমন, এপিএ, এমএলএ, শিকাগো স্টাইল-শিট, হার্ভাড বিজনেজ, আই ট্রিপল-ই ইত্যাদি রীতি। এসব পদ্ধতি অনুসরণ করে বাংলা ভাষায় লিখিত ফুটনোট, এন্ডনোটে ব্যক্তি, কর্ম, প্রকাশনার নাম উল্লেখ থাকে এবং সেগুলোর বিশেষ নিয়মে প্রকাশিত হয়। এই তথ্যসূত্রগুলো লেখার রীতির একটি মান্যরূপ প্রণয়ন প্রয়োজন, যাতে ভবিষ্যতে সহজেই ম্যাশিন এইসব টেক্সট থেকে প্রয়োজনীয় তথ্য বের করতে পারে।  

১. সিএলডিআর-এ উল্লেখিত শব্দগুলোর বাংলাদেশ মান প্রণয়ন ২. যন্ত্র সহায়ক (ম্যাশিন ফ্রেন্ডলি) বাংলা রেফারেন্সিং স্টাইলশিট নির্ধারণ 

কম্পিউটারে বাংলা শব্দের সর্টিং অর্ডার নির্ধারণ

  বাংলা সর্টিং অর্ডার এর প্রমিত মান নির্ধারণ করা প্রয়োজন। বিশেষ করে ইউনিকোডের সর্টিং বাংলা ভাষার প্রকৃতি অনুযায়ী হওয়া উচিত। বিশেষ করে ক্ষ ও যুক্তবর্ণগুলোর ক্রম; এ-কার, ই-কার, ঈ-কার প্রভৃতি বর্ণগুলোর ক্রম শব্দে প্রয়োগের সময় বিভিন্ন প্লাটফর্মে বিশেষ করে এসকিউএল, এক্সেলে ঠিকভাবে হয় কিনা তা পরীক্ষা করে প্রমিত ও স্বীকৃত সর্টিং অর্ডার প্রকাশ করা।   

ডব্লিউজির কার্যপরিধি:  ১. বিভিন্ন সফটওয়্যারে যেমন, এসকিউএল, এক্সেল প্রভৃতিতে বাংলা একক বর্ণ এবং শব্দে প্রযুক্ত বর্ণের ক্রম ঠিক আছে কিনা তা পরীক্ষা করে দেখা  ২. সর্টিং অর্ডারের প্রমিত মানের খসড়া প্রস্তাব করা  ৩. খসড়া সর্টিং অর্ডারের পক্ষে প্রয়োজনীয় যুক্তি, বিশ্লেষণ ও প্রমাণক যুক্ত করা   

বাংলা গানের স্বরলিপির ইউনিকোড মানের খসড়া প্রণয়ন

  গানের স্বরলিপি কম্পিউটারে মুদ্রণের ক্ষেত্রে নানা প্রতিবন্ধকতা রয়েছে। বিশেষ করে, ডিজিটাল মাধ্যমে কিছু চিহ্ন প্রকাশ করা সম্ভব হয়, যেগুলো  লেটারপ্রেসে ছাপা যেত। ফলে বাংলা ইউনিকোডে অন্তর্ভুক্তির লক্ষ্যে বাংলা স্বরলিপির বিভিন্ন চিহ্ন পর্যালোচনা করে খসড় প্রণয়ন করতে হবে। 

 কার্যপরিধি: ১. বাংলা ইউনিকোডে অন্তর্ভুক্তির লক্ষ্যে স্বরলিপির চিহ্নগুলো নির্ধারণ করা

ইমোজির লোকালাইজেশন ও বাংলাদেশ মানের খসড়া প্রণয়ন

  ইমোজি হলো অনলাইনে, স্যোশাল মিডিয়ায় ব্যবহৃত ভাব  প্রকাশক চিত্রলিপি। ইমোজি অনুভূতি প্রকাশক চিহ্ন বা ইমোটিকন হিসেবেই বেশি ব্যবহৃত, যেমন স্মাইলি। তবে লিখিত বর্ণমালার মতো এর মাধ্যমে  মনের ভাব প্রকাশ করা যায়। তাই স্যোশাল মিডিয়া ও চ্যাটবক্সে ইমোজি বেশি ব্যবহৃত হচ্ছে।   প্রতিটি ইমোজির স্বতন্ত্র নাম আছে তেমনি রয়েছে অর্থপূর্ণ ব্যবহার। তবে বিভিন্ন অঞ্চল ভেদে এর অর্থ এবং ব্যবহারও কিন্তু বদলে গেছে মানুষের বোধগোম্যতা বা তাদের নিজস্ব ধরন অনুসারে ব্যবহারের কারণে। যেমন,  ভারতে বহুল ব্যবহৃত ইমোজি ফোল্ডেড হ্যান্ড মূলত জাপানের সংস্কৃতি থেকে এসেছে। জাপানে একটি হাইফাইভের বিকল্প, ভারতে তা বিনয়, ‘ক্ষমা চাওয়া’, ‘প্রার্থনা করার সমতুল্য। বাংলাদেশের নিজস্ব সংস্কৃতি প্রতিফলিত করার জন্য স্থানীয় সংস্কৃতি বিচার করে প্রাথমিকভাবে কযেকটি ইমোজির ধারণাপত্র রয়েছে। যা পর্যালোচনা করে বাংলাদেশের ইমোজির খসড়া তালিকা প্রণয়ন করতে হবে। এর মধ্যে যেগুলো প্রধান:  ক. বাংলাদেশের স্থানীয় সংস্কৃতি অনুসারে ইদের কোলাকুলি, বিয়ের সময় শ্বশুর-শাশুড়িকে পা ছুঁয়ে সালাম ইত্যাদি খ. স্থানীয় খাবার যেমন ফুচকা-চটপটি, শীতের পিঠা, কাচ্চি/তেহারি, শুটকি ভর্তা, ইলিশ, খেজুর রস গ. স্থানীয় টানজিবল প্রোপার্টিজ: বিভিন্ন ধরনের নৌকা, বাদ্যযন্ত্র, সিএনজি, রিক্সা ঘ. বিভিন্ন ধরনের ন্যাচারাল ও আর্কিটেকচারাল ল্যান্ডমার্ক: আহসান মঞ্জিল, শহিদ মিনার, স্মৃতিসৌধ,  ঙ. স্থানীয় জীবনাচরণ: মাটির খড়ির চুলা, মাথাল মাথার কৃষক, একতারা হাতে বাউল  কমিটির কার্যপরিধি: ১. প্রকল্প কর্তৃক প্রস্তাবিত তালিকা পর্যালোচনা  ২. ইমোজির দৃশ্যরূপ প্রণয়ন  ৩. স্থানীয় মানের খসড়া তৈরি করা

ওয়েবে ও সফটওয়্যারে ব্যবহৃত পরিভাষা/ গ্লোসারির বাংলাদেশ মান প্রণয়ন

  ওয়েবে ও জনপ্রিয় সফটওয়্যারগুলো বর্তমানে বাংলা ভাষা সংস্করণ ব্যবহার করছে। কিন্তু গুগল, মাইক্রোসফট থেকে শুরু করে বিভিন্ন গেইম ডেভেলপমেন্ট প্রতিষ্ঠান বিভিন্ন ওয়েব ও ইন্টারনেট সংক্রান্ত গ্লোসারির বিভিন্ন মান অনুসরণ করছে। ইমেল/ইমেইল/ই-মেইল, ফেসবুক/ফেইসবুক, গেইমস/ গেমস,  প্রথম পাতা, নীড় পাতা প্রভৃতি ভিন্ন ভিন্ন পরিভাষা/টার্ম ব্যবহৃত হচ্ছে। এগুলোর একটা প্রমিত রূপ থাকা প্রয়োজন। এই লক্ষ্যে সর্বাধিক ব্যবহৃত ও গুরুত্বপূর্ণ তথ্যপ্রযুক্তি বিষয়ক শব্দগুলোর প্রমিত রূপ ও বর্জিত রূপের তালিকা প্রণয়ন করতে হবে।  কমিটির কার্যপরিধি:  ১. প্রকল্প কর্তৃক প্রস্তাবিত তথ্যপ্রযুক্তি বিষয়ক গ্লোসারি তালিকা পর্যালোচনা  ২. গ্লোসারিগুলোর বানান ও অনুবাদ নির্ধারণ  

বাংলা-আইপিএ ও বাংলা-রোমান বর্ণ ট্রান্সলিটারেশন ও ট্রান্সস্ক্রিপশন মান প্রণয়ন 

 অনলাইনে বিভিন্নভাবে রোমান বর্ণে বাংলা লেখা হয়। এই সংস্করণকে বাংলিশ, মুরাদ টাকলা প্রভৃতি নামে চিহ্নিত করা হয়। বিষয়টি মূলত রোমান অক্ষরে বাংলা বা রোমানাইজড বাংলা। রোমান অক্ষরে বাংলা লেখার অনেকগুলো পদ্ধতি প্রচলিত রয়েছে। এই কর্মদলের মাধ্যমে দুইটি প্রতিবর্ণকরণ পদ্ধতির মান তৈরি করা হবে। প্রথমটি  রোমান বাংলা টু ইংরেজি ট্রান্সস্ক্রিপশন/লিপ্যন্তর (ক্যারেক্টার টু ক্যারেক্টার রূপান্তর), যা সহজে এস এম এস লেখার সময় ব্যবহৃত হতে পারে। যেমন,  কামাল, কমল, কমাল, কোমল প্রভৃতি শব্দের রোমান প্রতিবর্ণকরণ বিভিন্ন ভাবে লেখা হয় এবং শুধু ভাই শব্দের প্রতিবর্ণিত শব্দ পাওয়া গিয়েছে পাঁচের বেশি। ফলে রোমানাইজড বাংলার একটি মান নিধারণ করতে হবে।  দ্বিতীয়টি হলো বাংলা ভাষার জন্য আইপিএ সমতুল্য বাংলাদেশ মান তৈরি। বাংলা ভাষাকে আইপিএ-তে লেখার জন্য একটি বাংলাদেশ মান রয়েছে। আইপিএ হলো আন্তর্জাতিক ধ্বনিমূলক বর্ণমালা যার মাধ্যমে কোনো ভাষার উচ্চারণকে লিখে প্রকাশ করা যায়। বাংলাদেশের বিভিন্ন বইয়ে বিভিন্নভাবে আইপিএ প্রতিরূপ লেখা হয়ে থাকে এবং এ-বিষয়ে একটি বাংলাদেশ মান রয়েছে। পূর্ববর্তী মান ভাষা-প্রযুক্তিতে ব্যবহারের লক্ষ্যে নতুনভাবে পর্যালোচনা করা প্রয়োজন। ফলে নতুন সংস্করণের প্রস্তাবনা পর্যালোচনা করতে হবে।  কার্যপরিধি ১. রোমানাইজড বাংলার জন্য বাংলা-রোমান বর্ণ ম্যাপিং করা ২. বাংলা-আইপিএ ম্যাপিং করা এবং ৩. আইপিএতে ট্রান্সলিটারেশন করার জন্য নীতিমালার প্রস্তাবনা পর্যালোচনা করা 

বাংলা ট্রিব্যাংক বা টেক্সট প্রসেসিং পাইপলাইন প্রমিতকরণ 

 ন্যাচারাল ল্যাংগুয়েজ প্রসেসিংয়ের জন একটি গুরুত্বপূর্ণ অংশ হলো প্রসেসিং পাইপলাইনের মান নির্ধারণ। একটি রানিং টেক্সট বা প্যারাগ্রাফকে স্ট্রাকচারড টেক্সটে রূপান্তরের জন্য বেশ কিছু ভাষাগত ফিচারের ইঞ্জিনিয়ারিং করতে হয়। এর মধ্যে পিওএস, সিনট্যাকটিক পারসিং, এনটিটি এক্সট্রাকশন উল্লেখযোগ্য। এই ফিচার ইঞ্জিনিয়ারিংগুলোর জন্য বিভিন্ন ধরনের ট্যাগসেট ও স্কিমা রয়েছে। যেমন, পিওএস এর জন্য রযেছে প্যান ট্যাগসেট, ব্রিল ট্যাগসেট, ক্লজ সেভেন ট্যাগসেট, ইউপস ইত্যাদি। পার্সিং এর জন্য কন্সটিটিওয়েন্সি এবং ডিপেন্ডেন্সি পার্সিয়ের এর জন্য ভিন্ন স্কিমা প্রচলিত। এর মধ্যে স্ট্যানফোর্ড এনএলপি এবং ইউডি স্কিমা উল্লেখযোগ্য। নেইমড এনটিটির জন্য বিভিন্ন প্রকার ট্যাগসেট প্রচলিত রয়েছে, যেমন, স্পেসি ও এনএলটিকে স্কিমা ইত্যাদি।  এই ট্যাগসেটগুলোর সঙ্গে নির্ভরতা রয়েছে ইবিএলআইসিটি প্রকল্পের সিনট্যাকটিক ট্রিব্যাংক করপাস তৈরির কাজের। ট্রিব্যাংক তৈরির জন্য ট্যাগসেট ও স্কিমাগুলোর খসড়া প্রস্তুত করা রয়েছে  ফলে এদের প্রমিত মান নির্ধারণ করা প্রয়োজন। কার্যপরিধি: ১. প্রস্তাবিত ট্যাগসেট ও স্কিমাগুলো (পিওএস, নেইমড এনটিটি, কন্সটিটিওয়েন্সি ও   ডিপেন্ডেন্সি পার্সিং) প্রমিতকরণ করা। ২. স্প্যাম্পল প্যারাগ্রাফ অ্যানোটেট করা 

বাংলাসহ ১০টি ভাষায় অ্যালাইনড মাল্টি-লিঙ্গুয়াল  টয় করপাস প্রণয়ন  

বাংলা ভাষা থেকে বিভিন্ন ভাষায় যান্ত্রিক অনুবাদের বিভিন্ন সার্ভিস তৈরি হয়েছে। যদিও বাংলা ভাষার সঙ্গে পৃথিবীর অপরাপর প্রধান ভাষাগুলোর সঙ্গে ভাষাবিজ্ঞানগত দিক বা অনুবাদগত দিক থেকে তুলনামূলক আলোচনা হয়নি। যেহেতু বাংলা ভাষা সমৃদ্ধকরণ প্রকল্প বাংলা থেকে প্রাথমিকভাবে দশটি ভাষায় যান্ত্রিক অনুবাদের কার্যক্রম হাতে নিয়েছে সেহেতু এর প্রাথমিক কাজ হলো দশটি ভাষার সংক্ষিপ্ত করপাস/ডেটাসেট তৈরি করা। নির্বাচিত ভাষাগুলো হলো: ইংরেজি, আরবি, স্প্যানিশ, ফ্রেঞ্চ, চাইনিজ/মান্দারিন, জাপানিজ, কোরিয়ান, রাশিয়ান, জার্মান, হিন্দি, উর্দু, ফার্সি ও সংস্কৃত।   বাংলা ভাষাভাষীদের দ্বিতীয় ভাষা শিক্ষার লক্ষ্যে বেশ কিছু শিক্ষা-উপকরণ থাকলেও এর বাইরে ম্যাশিন ট্রান্সলেশন কাজটির ডেটাসেট তৈরির গভীরতা ও ব্যপ্তি বোঝার জন্য যথেষ্ট রিসোর্স নেই। ফলে যান্ত্রিক অনুবাদ শুরুর পূর্বে একেবারে প্রাথমিক উদ্যোগ হিসেবে গবেষকদের কাছ থেকে তিনটি বিষয় প্রত্যাশা করা হচ্ছে:  ক. বাংলা ভাষার সঙ্গে নির্বাচিত ১০টি ভাষার সাধারণ তুলনামূলক আলোচনা  খ. নির্বাচিত একশটি বাক্যের নিজস্ব অনুবাদ গ. নিজেদের অনুবাদের সঙ্গে সেই একই একশ বাক্যের যান্ত্রিক অনুবাদের (যেমন গুগল ট্রান্সলেটর)- তুলনা,  ঘ. অনূদিত বাক্যগুলোর বাক্য গঠন বিশ্লেষণ (ফ্রেইজ লেবেল চাঙ্কিং ও কন্সটিটিওয়েন্সি পার্সিং করা বা বৃক্ষচিত্র করা); বাংলার সঙ্গে তা অ্যালাইন করা;  ঙ. এই একশ বাক্যের অনুবাদ, অনুবাদ মূল্যায়ন, বাক্য গঠন ও অ্যালাইন করতে গিয়ে যে পর্যবেক্ষণ পাওয়া যাবে, তার সার-সংক্ষেপ প্রস্তুত করা 

বাক ও শ্রবণ-প্রতিবন্ধী ব্যক্তি ব্যবহৃত  ইশারা ভাষার প্রমিতরূপ নির্ধারণ 

 বাক ও শ্রবণ-প্রতিবন্ধী ব্যক্তিবর্গ বিভিন্ন মানের ইশারা ভাষা ব্যবহার করে থাকেন। বিভিন্ন সরকারি-বেসরকারি সংস্থা ইশারা ভাষা উন্নয়নে অবদান রেখেছেন। ইবিএলআইসিটি প্রকল্পের একটি কম্পোনেন্টের মাধ্যমে ইশারা ভাষাকে সরল বাংলায় রূপান্তরের কাজ চলমান রয়েছে যেখানে ম্যাশিন বা সফটওয়্যারের মাধ্যমে ইশারা ভাষাকে অনুবাদ করা হবে সরল বোধগম্য বাংলায়। কিন্তু এই কাজ করার জন্য প্রাথমিক শর্ত হলো একটি প্রমিত রূপ গ্রহণ করা।  ফলে সমাজকল্যাণ মন্ত্রণালয়, সরকারি প্রতিবন্ধী স্কুল, বিটিভিসহ বিভিন্ন টিভি সংবাদে ব্যবহৃত ভাষা, বিভিন্ন বেসরকারি সংস্থা কর্তৃক প্রণয়নকৃত ইশারা ভাষা পর্যালোচনা করা প্রয়োজন। এই লক্ষ্যে প্রাথমিক শব্দকোষ হিসেবে ৩০০ শব্দের ইশারা ভাষার চিত্রিত প্রতিরূপ প্রস্তুত করে প্রমিতকরণ প্রয়োজন। একই সঙ্গে ১০০ প্রতিনিধিত্বমূলক বাক্যের ইশারা রূপ পর্যালোচনা করা প্রয়োজন। উপরের শব্দ ও বাক্য বিশ্লেষণ করে এই ইশারা ভাষা মানরূপ প্রস্তুত করা প্রয়োজন। কার্যপরিধি: ১. খসড়া ৩০০ শব্দের ইশারা প্রতিরূপ নির্ধারণ ও চিত্রিতরূপ চূড়ান্তকরণ। ২. বিভিন্ন সংস্থার প্রস্তুতকৃত ইশারা ভাষা পর্যালোচনা করে প্রমিতরূপ নির্ধারণ 

 বাংলা টেক্সট টু বাংলা ব্রেইল রূপান্তর গাইডলাইন প্রণয়ন  

দৃষ্টি প্রতিবন্ধী ব্যক্তিরা স্পর্শের মাধ্যমে ছয়টি এমবুসড ডট নির্ভর ব্রেইল পদ্ধতিতে পড়ে থাকে। বাংলাদেশ ব্রেইল পদ্ধতি এনসিটিবির পাঠ্যপুস্তকসহ বিভিন্ন সরকারি-বেসরকারি প্রতিষ্ঠান ব্যবহার করে থাকে। ইবিএলআইসিটি প্রকল্পের একটি কম্পোনেন্টের (সফটওয়্যার ফর ডিজেবল পিপল) মাধ্যমে একটি বাংলা ইউনিকোড টেক্সট টু ব্রেইল সফটওয়্যার ট্রান্সলেটর সফটওয়্যার প্রস্তুত করা হবে। এবং এই সফটওয়্যারের মাধ্যমে দেশের দৃষ্টি প্রতিবন্ধী ব্যক্তিদের জন্য ৫০টি ব্রেইল বই অন্তত ১০০টি করে কপি মুদ্রণ করা হবে। এই লক্ষ্যে বাংলা ব্রেইল এর মান নির্ধারণ যেমন জরুরি। তেমনি প্রয়োজনীয় ও প্রাসঙ্গিক ৫০ টি বইয়ের তালিকা করা প্রয়োজন, যেখানে কপিরাইট, অনুমোদন,  পাঠযোগ্যতা প্রভৃতি বিষয় আলোচনায় প্রাধান্য পাবে। কার্যপরিধি: ১. বাংলা-ব্রেইল ম্যাপিং করে বাংলাদেশ মান প্রণয়ন ২. ব্রেইলে মুদ্রণযোগ্য ৫০+ বইয়ের তালিকা প্রণয়ন  

ডেটাসেট ও সফটওয়্যারের  কপিরাইট, লাইসেন্সিং, ইউজার পলিসি বিষয়ক গাইডলাইন প্রণয়ন

  এছাড়াও বাংলা ভাষা প্রকল্প বিভিন্ন কম্পোনেন্টের জন্য সফটওয়্যার, ডেটাসেট ও মডেল তৈরিতে কাজ করছে সরকারের পিপিএ (২০০৬) এবং পিপিআর (২০০৮) অনুসরণ করে। এর অনুসারে সকল ব্যাকগ্রাউন্ড ও ফরগ্রাউন্ড আইপি ও কপিরাইট সরকারের কাছে হস্তান্তর করতে হয় এবং সার্ভিসগুলো জনগণের জন্য অবাণিজ্যিক কার্যক্রমে বিনামূলে প্রদান করা হবে। এই প্রকল্পের ডেটাসেট, মডেল, সোর্সকোড ব্যবহারের জন্য ওপেন সোর্স করে দেওয়া হবে। ফলে পুরো ডেভেলপমেন্ট পরবর্তী ডিসসি্ট্রবিউশন এবং সাসটেইনেবিলিটির একটি গাইডলাইন থাকা প্রয়োজন। কার্যপরিধি: ১.ডেটাসেট, মডেল ও সফটওয়্যারগুলো ব্যবহারের জন্য লাইসেন্সিং, কপিরাইট বিষয়ক নীতিমালা প্রণয়ন