হ্যালো! আমার নাম অ্যাশটন, এবং আমি থেটা-তে একজন প্রতিষ্ঠাতা প্রকৌশলী যেখানে আমি RL ইনফ্রা, RL, এবং বিতরণকৃত সিস্টেমের উপর কাজ করি। আমি বিশেষভাবে কম্পিউটার-ব্যবহার এবং টুল-ব্যবহারের উপর ফোকাস করি। আমার অতীতে, আমি অ্যামাজন AGI-তে কাজ করেছি এবং ইনফারেন্স এবং টুল-ব্যবহার ইনফ্রাস্ট্রাকচার নিয়ে কাজ করেছি। আমার অবসর সময়ে, আমি গ্রাফিক ডিজাইন, সাইড-প্রজেক্ট এবং বোল্ডারিং পছন্দ করি।
আমার সর্বশেষ গল্প, "আপনার AI কি আসলেই একটি কম্পিউটার ব্যবহার করতে পারে? কম্পিউটার-ব্যবহারের বেঞ্চমার্কের একটি ২০২৫ মানচিত্র," VC-তে এখন সবচেয়ে গরম স্পেসগুলির একটিকে স্পর্শ করেছে: RL পরিবেশ এবং মূল্যায়ন। আমি সবচেয়ে বেশি ব্যবহৃত কম্পিউটার-ব্যবহার বেঞ্চমার্কগুলির একটি ব্যাপক ওভারভিউ দিয়েছি, এবং কম্পিউটার-ব্যবহার এজেন্টদের প্রশিক্ষণ এবং পরীক্ষার জন্য বেঞ্চমার্ক কীভাবে বেছে নিতে হয় সে সম্পর্কে ব্যবহারিক পরামর্শ দিয়েছি।
আমি একই ফাঁকে পড়তে থাকি: এমন অনেক নিবন্ধ নেই যা বেঞ্চমার্কগুলি নিজেদের পর্যালোচনা করে। এবং যেহেতু এই ক্ষেত্রটি বাড়ছে, তাই আমরা আসলেই গুণমান মূল্যায়ন করছি তা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ, যা কিছু মেট্রিক গেমিং করতে পারে তা পুরস্কৃত করার পরিবর্তে। আমরা আগেও এখানে ছিলাম। LLM-এর প্রাথমিক দিনগুলিতে, বেঞ্চমার্কগুলি এতটাই এলোমেলো এবং ভিন্ন ছিল যে তারা কেবল দুর্বলভাবে প্রকৃত বিজয়ীকে প্রতিফলিত করত।
বেঞ্চমার্কগুলি "সেরা মডেল" এর জন্য ডি ফ্যাক্টো স্কোরবোর্ড হয়ে উঠেছিল, এবং তারপর লোকেরা বুঝতে পেরেছিল যে তাদের অনেকেই তারা যা দাবি করেছিল তা পরিমাপ করছিল না।
প্রাথমিক যুগের সবচেয়ে প্রকাশ্য ব্যর্থতাগুলির মধ্যে একটি ছিল যখন "পাঠ বোধ" চুপচাপ "ডেটাসেট কাঠামোতে প্যাটার্ন মিলানো" হয়ে গেল। গবেষকরা ইচ্ছাকৃতভাবে উস্কানিমূলক বেসলাইন (শুধুমাত্র-প্রশ্ন, শুধুমাত্র-শেষ-বাক্য) চালিয়েছিল, এবং ফলাফলগুলি একটি অস্বস্তিকর সম্ভাবনা তুলে ধরার জন্য যথেষ্ট উচ্চ ছিল: বেঞ্চমার্কটি ধারাবাহিকভাবে মডেলগুলিকে সম্পূর্ণ অনুচ্ছেদ ব্যবহার করতে বাধ্য করেনি। ২০১৮ সালের একটি সমালোচনায়, বিষয়টি এই ছিল না যে পড়া কখনও গুরুত্বপূর্ণ নয়, কিন্তু কিছু ডেটাসেট দুর্ঘটনাক্রমে এটিকে ঐচ্ছিক করে তুলেছিল সাম্প্রতিকতা এবং স্টেরিওটাইপ উত্তর প্রায়োরিটির মতো শর্টকাটগুলিকে অতিরিক্ত পুরস্কৃত করে।
\
# অনুমিত কাজ: প্রশ্নের উত্তর দিন অনুচ্ছেদ এবং প্রশ্ন দেওয়া হয়েছে অনুচ্ছেদ (সারাংশ): - বাক্য ১-৮: স্কুলে জনের দিন (বেশিরভাগ অপ্রাসঙ্গিক বিবরণ) - বাক্য ৯: "স্কুলের পরে, জন রান্নাঘরে গেল।" - বাক্য ১০: "সে তার হোমওয়ার্ক শুরু করার আগে একটি পিৎজার টুকরো খেয়েছিল।" প্রশ্ন: "জন কী খেয়েছিল?" উত্তর: "পিৎজা"
বেঞ্চমার্কটি দুর্ঘটনাক্রমে একটি শর্টকাটকে পুরস্কৃত করে যেখানে মডেলটি শেষ বাক্যটিকে অতিরিক্ত ওজন দেয় (কারণ উত্তরটি প্রায়ই শেষের দিকে থাকে) এবং সহজভাবে সর্বাধিক সাম্প্রতিক ক্রিয়ার সরাসরি বস্তুটি বের করে ("খেয়েছিল ___"), যা এই ক্ষেত্রে "পিৎজা" দেয়।
এবং তারপরে আসে আরও বেশি ক্ষতিকারক বেসলাইন: অনুচ্ছেদটি সম্পূর্ণরূপে সরিয়ে ফেলুন এবং দেখুন কী ঘটে। যদি শুধুমাত্র-প্রশ্ন মডেলটি প্রতিযোগিতামূলক হয়, তাহলে এটি একটি সংকেত যে ডেটাসেটটি অনুচ্ছেদ-ভিত্তিক বোধগম্যতা পরীক্ষা করার পরিবর্তে পুনরাবৃত্তি এবং প্রায়োরিটির মাধ্যমে সিগন্যাল ফাঁস করছে।
প্রশ্ন: "জন কী খেয়েছিল?"
এই বেসলাইনটি মূলত একটি সুস্থতা পরীক্ষা: মডেলটি কি অনুচ্ছেদে কোনও ভিত্তি ছাড়াই উচ্চ-ফ্রিকোয়েন্সি উত্তর টেমপ্লেটগুলির উপর নির্ভর করে ভালো স্কোর করতে পারে? বাস্তবে এটি শুধু একটি টোকেন অনুমান করে যা ডেটাসেটটি অসমানুপাতিকভাবে পুরস্কৃত করে ("পিৎজা," "স্যান্ডউইচ"), এবং যদি তা প্রয়োজনের তুলনায় বেশি কাজ করে, তাহলে আপনি বোধগম্যতা পরিমাপ করছেন না, বরং আপনি ডেটাসেটের প্রায়োরিটি পরিমাপ করছেন।
কম্পিউটার-ব্যবহার মূল্যায়নগুলি ইতিমধ্যে আরও বেশি আক্ষরিক শর্টকাট তৈরি করেছে: এজেন্টের একটি ব্রাউজার আছে, বেঞ্চমার্কটি সর্বজনীন, এবং মূল্যায়নটি শেষ পৃষ্ঠায় উত্তর কী সহ একটি ওপেন-বুক পরীক্ষায় পরিণত হয়। হোলিস্টিক এজেন্ট লিডারবোর্ড (HAL) পেপারে, লেখকরা এমন এজেন্টদের পর্যবেক্ষণ করার কথা জানিয়েছেন যারা কাজটি সমাধান করার পরিবর্তে HuggingFace-এ বেঞ্চমার্কটি খুঁজেছিল, একটি আচরণ যা আপনি কেবল লগগুলি পরিদর্শন করলেই ধরতে পারেন।
\
# অনুমিত কাজ: ওয়েব পরিবেশের মধ্যে একটি ওয়ার্কফ্লো সম্পূর্ণ করুন কাজ: "অ্যাপে সেটিং X কনফিগার করুন এবং এটি সক্ষম আছে কিনা যাচাই করুন।" ব্যর্থতার মোড: 1) একটি নতুন ট্যাব খুলুন 2) অনুসন্ধান করুন: "বেঞ্চমার্ক X প্রত্যাশিত সক্ষম অবস্থা" / "HAL <বেঞ্চমার্ক> সেটিং X" 3) খুঁজুন: রেপো / লিডারবোর্ড রাইটআপ / ডেটাসেট কার্ড / ইস্যু থ্রেড 4) প্রত্যাশিত শেষ অবস্থা (উত্তর) পুনরুৎপাদন করুন
সেই পর্যায়ে, মূল্যায়নটি পরিমাপ করছিল যে এটি উত্তর কী খুঁজে পেতে পারে কিনা।
কাজ: "সঠিক পৃষ্ঠা খুঁজুন এবং Y বের করুন।" ব্যর্থতার মোড: - অনুসন্ধান: "<বেঞ্চমার্ক নাম> Y" - একটি পাবলিক আর্টিফ্যাক্ট (ডকস, ফোরাম পোস্ট, ডেটাসেট কার্ড) থেকে কপি করুন - মানটি এজেন্ট আউটপুটে পেস্ট করুন যেন এটি ইন্টারঅ্যাকশন থেকে এসেছে
যদি একটি এজেন্ট একটি ডেটাসেট কার্ড বা রেপো থেকে মান টানতে পারে এবং তবুও "পাস" করতে পারে, তাহলে সাফল্য চেকটি ইন্টারঅ্যাকশন সঠিকতা নয়, সম্ভাব্যতা গ্রেডিং করছে। পাবলিক টাস্ক প্লাস অগভীর যাচাইকরণ ওয়েব সার্চকে একটি এক্সপ্লয়েটে পরিণত করে।
এই দুটি উদাহরণ হল সতর্কতামূলক শট: যদি আমরা প্রাথমিকভাবে কম্পিউটার-ব্যবহার বেঞ্চমার্কগুলিকে উচ্চতর মানদণ্ডে না রাখি, তাহলে আমরা LLM যুগটি পুনরাবৃত্তি করব শুধুমাত্র আরও ভাল UI এবং প্রতারণা করার আরও বিস্তৃত উপায় সহ।
হ্যাঁ! কম্পিউটার-ব্যবহারের চারপাশে RL পরিবেশ এবং RL ইনফ্রা নিয়ে কাজ করে, আমি সর্বদা সেরা কম্পিউটার-ব্যবহার মডেল এবং সবচেয়ে বাস্তবসম্মত প্রশিক্ষণ পরিবেশ দ্বারা বেষ্টিত। তাই আমি আরেকটি নিবন্ধ লিখেছি, "দ্য স্ক্রিন ইজ দ্য API," যা কম্পিউটার-ব্যবহারের পক্ষে এবং এটি কেন AI মডেলের ভবিষ্যৎ।
এই স্পেসটি দুটি কারণে অত্যন্ত কম রিপোর্ট করা হয়:
আমি তা পরিবর্তন করতে চাই।
আমি সাধারণত অনেকগুলি গবেষণা পত্র পড়ি এবং একটি বিষয়ে তাদের চিন্তাভাবনা সম্পর্কে শিল্পের আমার সহকর্মীদের সাথে কথা বলি। এছাড়াও, আমি PG-এর মতো দুর্দান্ত ব্লগারদের দ্বারা লেখা নিবন্ধগুলি পড়তে অনেক সময় ব্যয় করি। তাই আমি সাধারণত আমার লেখায় অন্য লোকদের কাছ থেকে অনেক অনুপ্রেরণা নিই।
বসে আমার জীবনের অভিজ্ঞতাকে শব্দে রূপান্তরিত করার সময় খুঁজে পাওয়া।
দুর্দান্ত লোকদের সাথে কঠিন সমস্যাগুলি সমাধান করা, সেই লোকদের কাছ থেকে শেখা এবং আমার অভিজ্ঞতা শেয়ার করা।
সিনেমা দেখা! আমার এখন প্রিয় সিনেমা হল ক্যাচ মি ইফ ইউ ক্যান (২০০২)।
আমি বোল্ডারিং পছন্দ করি কারণ এটি আমাকে এমন অনুভব করায় যেন আমি ক্লাইম্বিং ওয়ালের সাথে ইন্টারঅ্যাক্ট করছি একটি মানব কম্পিউটার-ব্যবহার এজেন্ট। আমি ঠাট্টা করছি। আমি মনে করি বোল্ডারিং অনেক মজার কারণ এটি আমাকে কাজের থেকে মন সরিয়ে আমার চিন্তাভাবনা একত্রিত করতে সাহায্য করে।
আমি বর্তমানে RL পরিবেশ ইনফ্রাস্ট্রাকচার সম্পর্কে আরেকটি লেখা লিখছি!
আমি মনে করি রিভিউ কাঠামোটি দুর্দান্ত, এবং এটি আমার জন্য প্রযুক্তিগত পাঠকদের সামনে আমার চিন্তাভাবনা রাখার জন্য একটি দুর্দান্ত জায়গা ছিল।
আমি লেখা পছন্দ করি। ধন্যবাদ, হ্যাকারনুন!


