এই সাক্ষাৎকারে, আমরা থেটার একজন প্রতিষ্ঠাতা প্রকৌশলী অ্যাশটনের সাথে রিইনফোর্সমেন্ট লার্নিং ইনফ্রাস্ট্রাকচারের অত্যাধুনিক বিষয় নিয়ে আলোচনা করি। তিনি ব্যাখ্যা করেনএই সাক্ষাৎকারে, আমরা থেটার একজন প্রতিষ্ঠাতা প্রকৌশলী অ্যাশটনের সাথে রিইনফোর্সমেন্ট লার্নিং ইনফ্রাস্ট্রাকচারের অত্যাধুনিক বিষয় নিয়ে আলোচনা করি। তিনি ব্যাখ্যা করেন

লেখকের সাথে পরিচয়: অ্যাশটন চিউ, থিটার প্রতিষ্ঠাতা ইঞ্জিনিয়ার

2025/12/15 04:25


চলুন শুরু করি! আপনার সম্পর্কে কিছু বলুন। উদাহরণস্বরূপ, নাম, পেশা এবং ব্যক্তিগত আগ্রহ।

হ্যালো! আমার নাম অ্যাশটন, এবং আমি থেটা-তে একজন প্রতিষ্ঠাতা প্রকৌশলী যেখানে আমি RL ইনফ্রা, RL, এবং বিতরণকৃত সিস্টেমের উপর কাজ করি। আমি বিশেষভাবে কম্পিউটার-ব্যবহার এবং টুল-ব্যবহারের উপর ফোকাস করি। আমার অতীতে, আমি অ্যামাজন AGI-তে কাজ করেছি এবং ইনফারেন্স এবং টুল-ব্যবহার ইনফ্রাস্ট্রাকচার নিয়ে কাজ করেছি। আমার অবসর সময়ে, আমি গ্রাফিক ডিজাইন, সাইড-প্রজেক্ট এবং বোল্ডারিং পছন্দ করি।

আকর্ষণীয়! আপনার সর্বশেষ হ্যাকারনুন টপ স্টোরি কী সম্পর্কে ছিল?

আমার সর্বশেষ গল্প, "আপনার AI কি আসলেই একটি কম্পিউটার ব্যবহার করতে পারে? কম্পিউটার-ব্যবহারের বেঞ্চমার্কের একটি ২০২৫ মানচিত্র," VC-তে এখন সবচেয়ে গরম স্পেসগুলির একটিকে স্পর্শ করেছে: RL পরিবেশ এবং মূল্যায়ন। আমি সবচেয়ে বেশি ব্যবহৃত কম্পিউটার-ব্যবহার বেঞ্চমার্কগুলির একটি ব্যাপক ওভারভিউ দিয়েছি, এবং কম্পিউটার-ব্যবহার এজেন্টদের প্রশিক্ষণ এবং পরীক্ষার জন্য বেঞ্চমার্ক কীভাবে বেছে নিতে হয় সে সম্পর্কে ব্যবহারিক পরামর্শ দিয়েছি।

আমি একই ফাঁকে পড়তে থাকি: এমন অনেক নিবন্ধ নেই যা বেঞ্চমার্কগুলি নিজেদের পর্যালোচনা করে। এবং যেহেতু এই ক্ষেত্রটি বাড়ছে, তাই আমরা আসলেই গুণমান মূল্যায়ন করছি তা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ, যা কিছু মেট্রিক গেমিং করতে পারে তা পুরস্কৃত করার পরিবর্তে। আমরা আগেও এখানে ছিলাম। LLM-এর প্রাথমিক দিনগুলিতে, বেঞ্চমার্কগুলি এতটাই এলোমেলো এবং ভিন্ন ছিল যে তারা কেবল দুর্বলভাবে প্রকৃত বিজয়ীকে প্রতিফলিত করত।

বেঞ্চমার্কগুলি "সেরা মডেল" এর জন্য ডি ফ্যাক্টো স্কোরবোর্ড হয়ে উঠেছিল, এবং তারপর লোকেরা বুঝতে পেরেছিল যে তাদের অনেকেই তারা যা দাবি করেছিল তা পরিমাপ করছিল না।

প্রাথমিক যুগের সবচেয়ে প্রকাশ্য ব্যর্থতাগুলির মধ্যে একটি ছিল যখন "পাঠ বোধ" চুপচাপ "ডেটাসেট কাঠামোতে প্যাটার্ন মিলানো" হয়ে গেল। গবেষকরা ইচ্ছাকৃতভাবে উস্কানিমূলক বেসলাইন (শুধুমাত্র-প্রশ্ন, শুধুমাত্র-শেষ-বাক্য) চালিয়েছিল, এবং ফলাফলগুলি একটি অস্বস্তিকর সম্ভাবনা তুলে ধরার জন্য যথেষ্ট উচ্চ ছিল: বেঞ্চমার্কটি ধারাবাহিকভাবে মডেলগুলিকে সম্পূর্ণ অনুচ্ছেদ ব্যবহার করতে বাধ্য করেনি। ২০১৮ সালের একটি সমালোচনায়, বিষয়টি এই ছিল না যে পড়া কখনও গুরুত্বপূর্ণ নয়, কিন্তু কিছু ডেটাসেট দুর্ঘটনাক্রমে এটিকে ঐচ্ছিক করে তুলেছিল সাম্প্রতিকতা এবং স্টেরিওটাইপ উত্তর প্রায়োরিটির মতো শর্টকাটগুলিকে অতিরিক্ত পুরস্কৃত করে।

\

# অনুমিত কাজ: প্রশ্নের উত্তর দিন অনুচ্ছেদ এবং প্রশ্ন দেওয়া হয়েছে অনুচ্ছেদ (সারাংশ): - বাক্য ১-৮: স্কুলে জনের দিন (বেশিরভাগ অপ্রাসঙ্গিক বিবরণ) - বাক্য ৯: "স্কুলের পরে, জন রান্নাঘরে গেল।" - বাক্য ১০: "সে তার হোমওয়ার্ক শুরু করার আগে একটি পিৎজার টুকরো খেয়েছিল।" প্রশ্ন: "জন কী খেয়েছিল?" উত্তর: "পিৎজা"

বেঞ্চমার্কটি দুর্ঘটনাক্রমে একটি শর্টকাটকে পুরস্কৃত করে যেখানে মডেলটি শেষ বাক্যটিকে অতিরিক্ত ওজন দেয় (কারণ উত্তরটি প্রায়ই শেষের দিকে থাকে) এবং সহজভাবে সর্বাধিক সাম্প্রতিক ক্রিয়ার সরাসরি বস্তুটি বের করে ("খেয়েছিল ___"), যা এই ক্ষেত্রে "পিৎজা" দেয়।

এবং তারপরে আসে আরও বেশি ক্ষতিকারক বেসলাইন: অনুচ্ছেদটি সম্পূর্ণরূপে সরিয়ে ফেলুন এবং দেখুন কী ঘটে। যদি শুধুমাত্র-প্রশ্ন মডেলটি প্রতিযোগিতামূলক হয়, তাহলে এটি একটি সংকেত যে ডেটাসেটটি অনুচ্ছেদ-ভিত্তিক বোধগম্যতা পরীক্ষা করার পরিবর্তে পুনরাবৃত্তি এবং প্রায়োরিটির মাধ্যমে সিগন্যাল ফাঁস করছে।

প্রশ্ন: "জন কী খেয়েছিল?"

এই বেসলাইনটি মূলত একটি সুস্থতা পরীক্ষা: মডেলটি কি অনুচ্ছেদে কোনও ভিত্তি ছাড়াই উচ্চ-ফ্রিকোয়েন্সি উত্তর টেমপ্লেটগুলির উপর নির্ভর করে ভালো স্কোর করতে পারে? বাস্তবে এটি শুধু একটি টোকেন অনুমান করে যা ডেটাসেটটি অসমানুপাতিকভাবে পুরস্কৃত করে ("পিৎজা," "স্যান্ডউইচ"), এবং যদি তা প্রয়োজনের তুলনায় বেশি কাজ করে, তাহলে আপনি বোধগম্যতা পরিমাপ করছেন না, বরং আপনি ডেটাসেটের প্রায়োরিটি পরিমাপ করছেন।

কম্পিউটার-ব্যবহার মূল্যায়নগুলি ইতিমধ্যে আরও বেশি আক্ষরিক শর্টকাট তৈরি করেছে: এজেন্টের একটি ব্রাউজার আছে, বেঞ্চমার্কটি সর্বজনীন, এবং মূল্যায়নটি শেষ পৃষ্ঠায় উত্তর কী সহ একটি ওপেন-বুক পরীক্ষায় পরিণত হয়। হোলিস্টিক এজেন্ট লিডারবোর্ড (HAL) পেপারে, লেখকরা এমন এজেন্টদের পর্যবেক্ষণ করার কথা জানিয়েছেন যারা কাজটি সমাধান করার পরিবর্তে HuggingFace-এ বেঞ্চমার্কটি খুঁজেছিল, একটি আচরণ যা আপনি কেবল লগগুলি পরিদর্শন করলেই ধরতে পারেন।

\

# অনুমিত কাজ: ওয়েব পরিবেশের মধ্যে একটি ওয়ার্কফ্লো সম্পূর্ণ করুন কাজ: "অ্যাপে সেটিং X কনফিগার করুন এবং এটি সক্ষম আছে কিনা যাচাই করুন।" ব্যর্থতার মোড: 1) একটি নতুন ট্যাব খুলুন 2) অনুসন্ধান করুন: "বেঞ্চমার্ক X প্রত্যাশিত সক্ষম অবস্থা" / "HAL <বেঞ্চমার্ক> সেটিং X" 3) খুঁজুন: রেপো / লিডারবোর্ড রাইটআপ / ডেটাসেট কার্ড / ইস্যু থ্রেড 4) প্রত্যাশিত শেষ অবস্থা (উত্তর) পুনরুৎপাদন করুন

সেই পর্যায়ে, মূল্যায়নটি পরিমাপ করছিল যে এটি উত্তর কী খুঁজে পেতে পারে কিনা।

কাজ: "সঠিক পৃষ্ঠা খুঁজুন এবং Y বের করুন।" ব্যর্থতার মোড: - অনুসন্ধান: "<বেঞ্চমার্ক নাম> Y" - একটি পাবলিক আর্টিফ্যাক্ট (ডকস, ফোরাম পোস্ট, ডেটাসেট কার্ড) থেকে কপি করুন - মানটি এজেন্ট আউটপুটে পেস্ট করুন যেন এটি ইন্টারঅ্যাকশন থেকে এসেছে

যদি একটি এজেন্ট একটি ডেটাসেট কার্ড বা রেপো থেকে মান টানতে পারে এবং তবুও "পাস" করতে পারে, তাহলে সাফল্য চেকটি ইন্টারঅ্যাকশন সঠিকতা নয়, সম্ভাব্যতা গ্রেডিং করছে। পাবলিক টাস্ক প্লাস অগভীর যাচাইকরণ ওয়েব সার্চকে একটি এক্সপ্লয়েটে পরিণত করে।

এই দুটি উদাহরণ হল সতর্কতামূলক শট: যদি আমরা প্রাথমিকভাবে কম্পিউটার-ব্যবহার বেঞ্চমার্কগুলিকে উচ্চতর মানদণ্ডে না রাখি, তাহলে আমরা LLM যুগটি পুনরাবৃত্তি করব শুধুমাত্র আরও ভাল UI এবং প্রতারণা করার আরও বিস্তৃত উপায় সহ।

আপনি কি সাধারণত অনুরূপ বিষয়গুলি নিয়ে লেখেন? যদি না হয়, তাহলে আপনি সাধারণত কী নিয়ে লেখেন?

হ্যাঁ! কম্পিউটার-ব্যবহারের চারপাশে RL পরিবেশ এবং RL ইনফ্রা নিয়ে কাজ করে, আমি সর্বদা সেরা কম্পিউটার-ব্যবহার মডেল এবং সবচেয়ে বাস্তবসম্মত প্রশিক্ষণ পরিবেশ দ্বারা বেষ্টিত। তাই আমি আরেকটি নিবন্ধ লিখেছি, "দ্য স্ক্রিন ইজ দ্য API," যা কম্পিউটার-ব্যবহারের পক্ষে এবং এটি কেন AI মডেলের ভবিষ্যৎ।

এই স্পেসটি দুটি কারণে অত্যন্ত কম রিপোর্ট করা হয়:

  1. মডেলগুলি অন্যান্য কাজের (কোডিং, গণিত ইত্যাদি) তুলনায় কম্পিউটার-ব্যবহারে ততটা সক্ষম নয়।
  2. কম্পিউটার-ব্যবহার দ্রুত চলমান এবং অত্যন্ত নতুন।

আমি তা পরিবর্তন করতে চাই।

চমৎকার! আপনার স্বাভাবিক লেখার রুটিন কেমন (যদি আপনার থাকে)

আমি সাধারণত অনেকগুলি গবেষণা পত্র পড়ি এবং একটি বিষয়ে তাদের চিন্তাভাবনা সম্পর্কে শিল্পের আমার সহকর্মীদের সাথে কথা বলি। এছাড়াও, আমি PG-এর মতো দুর্দান্ত ব্লগারদের দ্বারা লেখা নিবন্ধগুলি পড়তে অনেক সময় ব্যয় করি। তাই আমি সাধারণত আমার লেখায় অন্য লোকদের কাছ থেকে অনেক অনুপ্রেরণা নিই।

প্রযুক্তিতে একজন লেখক হওয়া একটি চ্যালেঞ্জ হতে পারে। এটি প্রায়শই আমাদের প্রধান ভূমিকা নয়, তবে অন্য একটির সাথে একটি সংযোজন। লেখার ক্ষেত্রে আপনার সবচেয়ে বড় চ্যালেঞ্জ কী?

বসে আমার জীবনের অভিজ্ঞতাকে শব্দে রূপান্তরিত করার সময় খুঁজে পাওয়া।

আপনার ক্যারিয়ারে আপনি পরবর্তী কী অর্জন করতে আশা করেন?

দুর্দান্ত লোকদের সাথে কঠিন সমস্যাগুলি সমাধান করা, সেই লোকদের কাছ থেকে শেখা এবং আমার অভিজ্ঞতা শেয়ার করা।

ওয়াও, তা প্রশংসনীয়। এখন, আরও অনানুষ্ঠানিক কিছু: আপনার পছন্দের দোষী আনন্দ কী?

সিনেমা দেখা! আমার এখন প্রিয় সিনেমা হল ক্যাচ মি ইফ ইউ ক্যান (২০০২)।

আপনার কি কোন নন-টেক-সম্পর্কিত শখ আছে? যদি হ্যাঁ, তাহলে সেটি কী?

আমি বোল্ডারিং পছন্দ করি কারণ এটি আমাকে এমন অনুভব করায় যেন আমি ক্লাইম্বিং ওয়ালের সাথে ইন্টারঅ্যাক্ট করছি একটি মানব কম্পিউটার-ব্যবহার এজেন্ট। আমি ঠাট্টা করছি। আমি মনে করি বোল্ডারিং অনেক মজার কারণ এটি আমাকে কাজের থেকে মন সরিয়ে আমার চিন্তাভাবনা একত্রিত করতে সাহায্য করে।

হ্যাকার নুন কমিউনিটি আপনার কাছ থেকে পরবর্তীতে কী পড়তে আশা করতে পারে?

আমি বর্তমানে RL পরিবেশ ইনফ্রাস্ট্রাকচার সম্পর্কে আরেকটি লেখা লিখছি!

লেখকদের জন্য একটি প্ল্যাটফর্ম হিসাবে হ্যাকারনুন সম্পর্কে আপনার মতামত কী?

আমি মনে করি রিভিউ কাঠামোটি দুর্দান্ত, এবং এটি আমার জন্য প্রযুক্তিগত পাঠকদের সামনে আমার চিন্তাভাবনা রাখার জন্য একটি দুর্দান্ত জায়গা ছিল।

আমাদের "লেখকের সাথে সাক্ষাৎ" সিরিজে যোগ দেওয়ার জন্য সময় নেওয়ার জন্য ধন্যবাদ। এটা একটি আনন্দ ছিল। আপনার কি কোন সমাপনী বক্তব্য আছে?

আমি লেখা পছন্দ করি। ধন্যবাদ, হ্যাকারনুন!

মার্কেটের সুযোগ
CATCH লোগো
CATCH প্রাইস(CATCH)
$0.002121
$0.002121$0.002121
-9.35%
USD
CATCH (CATCH) লাইভ প্রাইস চার্ট
ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য service@support.mexc.com এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

ব্ল্যাকরক কয়েনবেসে 2,196 BTC স্থানান্তর করেছে, যা বিনিয়োগকারীদের দৈনিক রিটার্ন অর্জনের জন্য ETCMining কে একটি নতুন বিকল্প করে তুলেছে

ব্ল্যাকরক কয়েনবেসে 2,196 BTC স্থানান্তর করেছে, যা বিনিয়োগকারীদের দৈনিক রিটার্ন অর্জনের জন্য ETCMining কে একটি নতুন বিকল্প করে তুলেছে

ব্ল্যাকরকের BTC স্থানান্তর বিটকয়েনে প্রাতিষ্ঠানিক আস্থা জোরদার করেছে, যা ETCMining এর মতো স্থিতিশীল, নিষ্ক্রিয়-আয়ের কৌশলগুলিতে নবায়িত আগ্রহ সৃষ্টি করেছে
শেয়ার করুন
Crypto.news2025/12/15 22:00
পলিগন MATIC ক্রিপ্টোতে ভালুকদের নিয়ন্ত্রণ যখন ইন্ট্রাডে বিডগুলি নিম্নতম পরীক্ষা করছে

পলিগন MATIC ক্রিপ্টোতে ভালুকদের নিয়ন্ত্রণ যখন ইন্ট্রাডে বিডগুলি নিম্নতম পরীক্ষা করছে

পলিগন ম্যাটিক ক্রিপ্টো বিশ্লেষণ: একটি মন্দাভাবাপন্ন পটভূমি সহ একটি নাজুক $0.38 ফ্লোর, গুরুত্বপূর্ণ EMAs, ইন্ট্রাডে ব্যালেন্স, এবং নজর রাখার জন্য ঝুঁকির সম্ভাব্য পরিস্থিতি।
শেয়ার করুন
The Cryptonomist2025/12/15 22:15
২০২৫ সালের জন্য সেরা ০.০১ ডলারের নিচে ক্রিপ্টো, আইপিও জিনি ($IPO) সর্বোচ্চ বৃদ্ধির সম্ভাবনা দেখাচ্ছে

২০২৫ সালের জন্য সেরা ০.০১ ডলারের নিচে ক্রিপ্টো, আইপিও জিনি ($IPO) সর্বোচ্চ বৃদ্ধির সম্ভাবনা দেখাচ্ছে

২০২৬ সাল আসার সাথে সাথে, সাব-পেনি ক্রিপ্টোকারেন্সিগুলি হঠাৎ করে আবার আলোচনার কেন্দ্রবিন্দুতে ফিরে এসেছে। খুচরা বিনিয়োগকারীরা কম প্রবেশমূল্যের প্রকল্পগুলি খুঁজছেন যেগুলির বাস্তব উর্ধ্বমুখী সম্ভাবনা রয়েছে
শেয়ার করুন
Coinstats2025/12/15 23:10