মেডিকেল Student দের জন্য AI গাইডেন্স ২০২৬
এখন ২০২৬ সাল। AI Bubble আরও বড় হচ্ছে, হয়তো একসময় বার্স্টও হবে। কিন্তু এর কারণে যদি কেউ ভাবেন যে এরপরেই AI-এর যুগ শেষ হয়ে যাবে, তাহলে এটি নিতান্তই ভুল ধারণা। বরং এরপর AI আরও বেশি এভেইলেবল আর অ্যাফোর্ডেবল হয়ে যাবে, ঠিক যেমনটা ডট কম বাবলের পর ইন্টারনেটের ক্ষেত্রে হয়েছিল।
আবার আমরা অনেকেই ভাবি মেডিকেল প্রফেশনকে AI রিপ্লেস করতে পারবে না, এটাও একটি ভুল ধারণা। AI যেমন লো আর মিড-লেভেলের প্রোগ্রামারদের রিপ্লেস করে দিয়েছে, তেমনি আগে হোক বা পরে, ডাক্তারদের অনেক কাজও যে AI রিপ্লেস করবে তা কেবল সময়ের ব্যাপার। বর্তমানের প্রো মডেলগুলো যে পর্যায়ে পৌঁছেছে, তাতেই অনেক প্রিসাইজ ডায়াগনোসিস দিতে পারে ডিটেইলস দিলেই। সময়ের সাথে সাথে এদের প্রিসাইসনেস আরও বাড়বে এবং এদের সাথে হার্ডওয়্যার বা মেডিকেল ইন্সট্রুমেন্টের ইন্টিগ্রেশনও সময়ের ব্যাপার মাত্র। তাই একজন মেডিকেল শিক্ষার্থী হিসেবে এখন থেকেই এর সর্বোচ্চ ব্যবহার নিশ্চিত করা জরুরি। পুরো সিস্টেমের সাথে নিজেকে অ্যাডাপ্ট করতে, সবকিছু ইউটিলাইজ করে পড়াশোনাকে আরও ইফেক্টিভ করতে এবং ভবিষ্যতের জন্য নিজেকে প্রস্তুত রাখতে এর বিকল্প নেই।
হয়তো আগামী ৫ বছর পর আরও ডেডিকেটেড মেডিকেল-বেসড এজেন্টিক সিস্টেম সবার হাতে হাতে চলে আসবে। যেহেতু বর্তমানে ওরকম কিছু নেই, বা ওরকম সেটআপ করাও অনেক ঝামেলা ও ব্যয়বহুল, তাই বর্তমানে সবার হাতের কাছে যা এভেইলেবল আছে, যা সবাই অ্যাফোর্ড করতে পারবে এবং স্মার্টলি ইউটিলাইজ করতে পারবে, তার একটি দিক নিয়েই আজ আলোচনা করব।
চ্যাটজিপিটি, জেমিনি এদের সাথে তো সবাই পরিচিত আমরা, কোনো কিছু না জানলে এদেরকে সরাসরি জিজ্ঞাসা করলেই তার উত্তর দিয়ে দেয় এরা। চিকিৎসাবিজ্ঞান থেকে শুরু করে বিশ্বরাজনীতি, ধর্ম, ফিলোসফি, ইতিহাস সবকিছুর উত্তরই পাওয়া যায়। আমাদের GTC-এর AI বুকগুলোও অনেকে ইউজ করেন টেক্সটবুক বা গাইড থেকে রেফারেন্স অনুযায়ী পড়াশোনা করতে বা উত্তর খুজতে। তবে আজকের আলোচনা AI ব্যবহারের আরেকটি ইন্টারেস্টিং অ্যাসপেক্ট নিয়ে। আমাদের বোরিং লেকচার ক্লাসগুলো থেকে কীভাবে আরও ইফেক্টিভ ওয়েতে নোট নেওয়া যায়, তা খুঁজে বের করার "খোঁজে-দ্য-সার্চ"-এ বের হয়েছিলাম, এবং সব মিলিয়ে কিছু কনক্লুশনেও এসেছি।
লেকচার থেকে অটোমেটিক ওয়েতে নোট নেওয়ার পদ্ধতি:
ক্লাসে লেকচার চলাকালীন আমরা অনেকেই নোট নিতে গিয়ে খেই হারিয়ে ফেলি, বা সবকিছু প্রোপারলি নোট করাও অনেক সময় সম্ভব হয় না। অনেক সময় মনোযোগ থাকে না; শরীর মানে তো মন মানে না, মন মানে তো শরীর মানে না! এর একটি দারুণ সমাধান হলো লেকচারের ট্রান্সক্রিপশন অর্থাৎ লেকচারের পুরো অডিওটাকে টেক্সটে রূপান্তর করা। ইংরেজি লেকচারের ক্ষেত্রে অনেক ভালো ভালো সার্ভিস থাকলেও, আমাদের মতো বাংলা ও ইংরেজির মিক্সড বাইলিঙ্গুয়াল লেকচারের ক্ষেত্রে লাইভ ট্রান্সক্রিপশন এখনো সবার জন্য সহজলভ্য নয়। আর অনেকের সার্ভিস পার্সোনালি আমার পছন্দও হয়নি, খুব একটা অ্যাকুরেটও লাগেনি।
তাহলে উপায় কী?
উপায় হলো Gemini। কীভাবে কী করবেন?
রেকর্ডিং: যে লেকচারটা করছেন, সেটি অডিও রেকর্ড করুন। ফোন এমনভাবে বা এমন জায়গায় রাখুন যেন সাউন্ড যথাসম্ভব ভালো আর স্পষ্ট রেকর্ড হয়। রেকর্ডিং ফরম্যাট হিসেবে .m4a ব্যবহার করবেন, এতে ফাইলের সাইজ ছোট থাকে, কিন্তু কোয়ালিটি MP3-এর চেয়ে ভালো হয়।
ক্লাস শেষে এই অডিও ফাইলটি সরাসরি জেমিনি প্রো মডেলে (বর্তমানে 3.1 Pro) জেমিনির মেইন ইন্টারফেসে বা AI Studio-তে আপলোড করুন। যদি জেমিনির মেইন ইন্টারফেসে আপলোড করেন, তাহলে ফাস্ট এর বদলে প্রো সিলেক্ট করে নিবেন ড্রপ ডাউন থেকে, প্রো মডেলটাও ইউস করা যায় ফ্রিতেই কয়েকবার ডেইলি। আর AI Studio-তে আপলোড করলে আরও ভালো আর অ্যাকুরেট রেজাল্টের জন্য Temperature (randomness) ১-এর কম (যেমন 0.2 বা 0.3) দিয়ে রাখতে পারেন, বিশেষ করে যদি দেখেন ডিফল্ট সেটিংয়ে AI Hallucination বা ভুল তথ্য দিচ্ছে।
অডিও ফাইলটি আপলোড করার পর এই প্রম্পটটি দিতে পারেন, বা নিজের প্রয়োজনমতো মডিফাই করে নিতে পারেন:
From this audio file, Provide a verbatim, word by word, dialogue-formatted transcript of this [Subject Name] lecture on [lecture topic name], clearly separating the teacher's statements from the students' interactions. Accurately capture the bilingual nature of the audio by typing spoken Bangla in Bangla script, while keeping all English words and clinical terminology in English. After completing the transcript, extract a note from the transcript with the important clinical concepts, informations, Facts or anythinng special teacher told and organize them logically according to the teacher's hierarchy, such as definitions, classifications, pathophysiology, and management and conclude with a concise summary of the lecture's key takeaways.
(এখানে লেকচারের টপিক কী ছিল এবং সাবজেক্টের নাম কী ছিল সেটা প্রম্পটের ব্র্যাকেট দেওয়া অংশে অ্যাড করে দিয়েন, এতে রেজাল্ট আরও ভালো আসবে।)
ব্যাস, আপনার কাজ শেষ! বাকিটুকু AI নিজেই করে দেবে। ব্যক্তিগতভাবে আমি এটি যতটুকু ব্যবহার করেছি, প্রায় ৯৯% নির্ভুল ফলাফল পেয়েছি। আপনারাও এটি ট্রাই করে দেখতে পারেন এবং ফিডব্যাক জানাতে পারেন কেমন কাজ করছে।
ইউটিউবের বাইলিঙ্গুয়াল লেকচারগুলো কীভাবে ট্রান্সক্রাইব ও নোট করবেন?
জেবা ম্যামের লেকচার নোটের পর থেকে অনেকেই প্রশ্ন করেছেন, বাংলা ইউটিউব লেকচার ভিডিও থেকে কীভাবে এমন হুবুহু ট্রান্সক্রিপ্ট তৈরি করব?
ইউটিউব ভিডিও থেকে নোট নিতে গিয়ে অনেকে বিভিন্ন থার্ড-পার্টি ওয়েবসাইট ব্যবহার করেন। সত্যি বলতে, সেগুলোর ফলাফল পার্সোনালি আমার খুব একটা সন্তোষজনক মনে হয়নি বাইলিঙ্গুয়াল লেকচারের ক্ষেত্রে। তাই এক্ষেত্রেও আমার প্রথম পছন্দ জেমিনি।
সরাসরি ভিডিওর লিংক দিয়ে নোট করতে বললে বেশিরভাগ সময় AI ফাঁকিবাজি করে; শর্টকাট ওয়েতে গুরুত্বপূর্ণ তথ্য বাদ দিয়ে তাড়াতাড়ি একটা নোট প্রোভাইড করে। (এভাবে AI-এর নিজের লক্ষ্যে পৌঁছানোর জন্য সবসময় এই শর্টকাট ওয়ে খুঁজে বের করার টেন্ডেন্সিকে Reward Hacking বলা হয়)। যাহোক, এই Reward hacking থেকে বাঁচার সবচেয়ে কার্যকর উপায় হলো, ভিডিওটি অডিও হিসেবে ডাউনলোড করা।(Download করতে অনলাইন ডাউনলোডার ইউস করতে পারেন বা ফোনের ক্ষেত্রে seal app, আর প্রোগ্রামিং নিয়ে ধারণা থাকলে কম্পিউটারে yt-dlp দিয়ে)।
তারপর অডিও ফাইলটি জেমিনিতে আপলোড করে উপরের প্রম্পটটিই ব্যবহার করা।
এতে আপনি ভিডিও বা লেকচারের প্রতিটি তথ্যের একটি স্ট্রাকচার্ড এবং ওয়ার্ড-বাই-ওয়ার্ড নোট পেয়ে যাবেন। এই পদ্ধতিটাও ব্যবহার করে দেখতে পারেন এবং আপনাদের অভিজ্ঞতা কেমন তা জানাতে ভুলবেন না!
AI Book কীভাবে বানাবেন?
AI-তে বই আপলোডের সবচেয়ে বড় বাধা হচ্ছে বইয়ের সাইজ আর কনটেক্সট টোকেন লিমিট। বড় কন্টেক্সট লিমিটের মডেল অনলাইনে জেমিনি বাদে নাই বললেই চলে। অন্যরা Retrieval-Augmented Generation (RAG) ইউস করে। কিন্তু এটা করলে পেইজ বাই পেইজ একেবারে প্রেসাইস রেফারেন্স পাওয়া যায় না। আবার বড় কন্টেক্সট উইন্ডো আছে এমন মডেল গুলো যে লোকালি রান করতে পারবে সবাই, এটা চিন্তা করাও নাইটমেয়ার।
এজন্য পিডিএফ-এর বদলে বইকে .csv বা .json ফরম্যাটে কনভার্ট করে নিলে সাইজের সমস্যাটা সমাধান হয়ে যায়, কনভার্টার অলরেডি আমাদের PDF Tools এ দেয়া আছে: PDF to DATA Converter।
আর লজিক্যাল চ্যাপ্টারওয়াইজ ভাগ করতে পারলে টোকেন লিমিটেরও সমাধান হয়ে যায়। লজিক্যাল চ্যাপ্টারওয়াইজ বলতে, যেমন রবিন্সের ক্ষেত্রে জেনারেল প্যাথোলজি আর সিস্টেমিক প্যাথোলজি, এই দুইটা পার্টে ভাগ করেছি, বিষয়টা সেরকম, টপিকওয়াইজ ভাগ আর কি। স্ক্যান করা পিডিএফ এই ডেটা ফরম্যাটে কনভার্ট করতে গেলে ফার্স্টে এটাকে OCR করে নিতে হবে। স্ক্যান করা পিডিএফ কীভাবে OCR করবেন, এটার ব্যাপারে এই পেজে আগেই বিস্তারিত বলেছি, চাইলে সেটা দেখে নিতে পারেন: OCR PDF।
NotebookLM:
পড়াশোনা বা ডকুমেন্টেস এর জন্য গুগলের ডেডিকেটেড প্লাটফর্ম এটা। তবে AI Studio র মতো ফ্লেক্সিবিলিটি না থাকায় আমি পার্সোনালি এটা ইউস করি না। কিন্তু পেপার সামারি করতে, অনেক বড় বই একসাথে আপলোডের ক্ষেত্রে এটা বেশ ভালো কাজ করে। এর থেকে অডিও, পডকক্যাস্ট, স্লাইড তৈরির ফিচারও আছে। চাইলে ব্যবহার করতে পারেন। এখানে বড় বই একসাথে আপলোড করতে চাইলে পিডিএফটা চ্যাপ্টারওয়াইজ ভাগ করে নিলে সহজে আপলোড করতে পারবেন।



