LLM (Large Language Model — பெரிய மொழி மாதிரி) என்பது பெரிய அளவு உரையிலிருந்து கற்று, மொழியை புரிந்து உருவாக்கும் AI மாதிரி. ChatGPT, Gemini, Claude அனைத்தும் LLM-கள்.
LLM என்றால் என்ன?
இணையம், புத்தகங்கள் போன்ற பெரிய அளவு உரையிலிருந்து சொற்களுக்கு இடையிலான வடிவங்களை கற்ற மாதிரி; உங்கள் உள்ளீட்டுக்கு ஏற்ப அடுத்த சொல்லை கணித்து உரை உருவாக்குகிறது.
எப்படி கற்கிறது?
பயிற்சியின்போது கோடிக்கணக்கான உரை எடுத்துக்காட்டுகளை பார்த்து, சொற்களின் தொடர்புகளை கற்கிறது. பின் இந்த கற்றலை வைத்து புதிய கேள்விகளுக்கு பதிலளிக்கிறது.
வரம்புகள், டோக்கன்
LLM தகவலை கட்டிவிடலாம் (ஹேலுசினேஷன்). உரை «டோக்கன்» எனப்படும் துண்டுகளாக பகுக்கப்படுகிறது — தமிழ் உரைக்கு ஆங்கிலத்தை விட ~2 மடங்கு டோக்கன் தேவை, இது செலவை அதிகரிக்கிறது.
சாட், ஆட்டோமேஷன், டிரான்ஸ்கிரிப்ஷன், படம் — ஒவ்வொன்றுக்கும் தனித்தனி சந்தா கட்டுகிறீர்களா? எல்லாவற்றையும் ஒரே இடத்தில் கொண்டுவருவதும் ஒரு வழி: osFoundry போன்ற ஏஜெண்ட் சார்ந்த (agentic) AI தளம் சாட், ஏஜெண்ட், நிறுவன ஆப்களை ஒன்றிணைத்து உங்கள் சொந்த விசையை (BYOK) கொண்டுவர அனுமதிக்கிறது — எந்த மாதிரி இயங்கும் என்பதை நீங்களே தீர்மானிக்கிறீர்கள்.
AI தகவல், எண்கள், மேற்கோள்களை நம்பகமாக கட்டிவிடக்கூடும் («ஹேலுசினேஷன்»). முக்கியமான தகவலை எப்போதும் நம்பகமான மூலத்திலிருந்து சரிபார்க்கவும்; மருத்துவம், சட்டம், நிதி, கல்வியில் இது குறிப்பாக அவசியம்.
தமிழ் LLM-களுக்கு ஒப்பீட்டளவில் நடுத்தர/குறைந்த-வளம் கொண்ட மொழி — ஹிந்திக்கு பின்னால், ஆங்கிலம்/ஐரோப்பிய மொழிகளை விட பின்னால். ஒரு தொழில்நுட்ப எச்சரிக்கை: தமிழ் உரைக்கு ஆங்கிலத்தை விட ~2 மடங்கு டோக்கன்கள் தேவை, இது செலவை/வரம்பை அதிகரிக்கிறது. IndicGenBench (Google ஆராய்ச்சி) படி, சிறந்த மாதிரிகளும் கூட இந்திய மொழிகளில் ஆங்கிலத்தை விட குறிப்பிடத்தக்க இடைவெளி காட்டுகின்றன. வழங்குநரின் «மிகச் சிறந்தது» கூற்று வழங்குநரின் கூற்றே; குறிப்பிட்ட தரவரிசை தருமுன் சரிபார்க்கவும்.
மேலும் படிக்க
இந்த கட்டுரை பொதுத் தகவலுக்காக; இது தொழில்முறை, சட்ட அல்லது நிதி ஆலோசனை அல்ல. AI கருவிகள், விலை, கிடைக்கும் தன்மை வேகமாக மாறுகின்றன — எந்த முடிவுக்கும் அடிப்படையாக்கும் முன் அதிகாரப்பூர்வ பக்கத்திலிருந்து சமீபத்திய தகவலை சரிபார்க்கவும்.