சுருக்கமான பதில்: பொது தமிழ் சாட்டுக்கு பெரிய மாதிரிகள் (ChatGPT/Gemini/Claude) ஓரளவு நன்று; தமிழ் மொழிபெயர்ப்பு/குரலுக்கு AI4Bharat (IIT மெட்ராஸ்) கருவிகள். தமிழ் நடுத்தர-வள மொழி — எந்த மாதிரியும் «சரியானது» அல்ல; சொந்த வேலையால் சோதிக்கவும்.
ஒரே பார்வையில் ஒப்பீடு
| தேவை | பரிந்துரை | குறிப்பு |
|---|---|---|
| பொது தமிழ் சாட் | ChatGPT/Gemini/Claude | ஓரளவு நன்று; சோதிக்கவும் |
| தமிழ் மொழிபெயர்ப்பு | AI4Bharat IndicTrans2 | திறந்த, MIT |
| தமிழ் குரல் (TTS) | AI4Bharat IndicF5 | தமிழ் ஒலிக்கு கட்டமைப்பு |
| திறந்த தமிழ் LLM | Sarvam-M, Tamil-LLaMA | சுய-ஹோஸ்டிங் |
பொது தமிழ் வேலைக்கு
எழுத்து, கேள்வி, சுருக்கத்திற்கு பெரிய மாதிரிகள் (ChatGPT, Gemini, Claude) தமிழை ஓரளவு கையாளும், ஆனால் ஆங்கிலத்தை விட பலவீனம் + அதிக டோக்கன் (செலவு). IndicGenBench படி இந்திய மொழிகளில் இடைவெளி உண்டு.
தமிழ்-குறிப்பிட்ட கருவிகள்
தமிழ் மொழிபெயர்ப்புக்கு AI4Bharat IndicTrans2 (திறந்த, MIT); தமிழ் குரலுக்கு (TTS) IndicF5; தமிழ் டிரான்ஸ்கிரிப்ஷனுக்கு தமிழ்-ஃபைன்-ட்யூன் Whisper. தட்டச்சுக்கு Sellinam/Gboard (Grammarly தமிழை ஆதரிக்காது).
திறந்த தமிழ் மாதிரிகள்
சுய-ஹோஸ்டிங், தரவு வசிப்பிடம் வேண்டுமானால் Sarvam-M (24B, Apache-2.0; தமிழ் ~8% கலவை), Sarvam-105B, Tamil-LLaMA (7B, Llama-2, 2023-கால). இவை «GPT-ஐ வெல்லும்» அல்ல — தமிழ் + திறந்த-எடை + வசிப்பிட காரணமாக பயன்.
எது தேர்வு செய்வது?
பொது தமிழ் சாட்டுக்கு பெரிய மாதிரிகள் (சோதித்து); தமிழ் மொழிபெயர்ப்பு/குரலுக்கு AI4Bharat; சுய-ஹோஸ்டிங்கிற்கு Sarvam/Tamil-LLaMA. எந்த மாதிரியும் முழுமையாக சரியானது அல்ல.
சாட், ஆட்டோமேஷன், டிரான்ஸ்கிரிப்ஷன், படம் — ஒவ்வொன்றுக்கும் தனித்தனி சந்தா கட்டுகிறீர்களா? எல்லாவற்றையும் ஒரே இடத்தில் கொண்டுவருவதும் ஒரு வழி: osFoundry போன்ற ஏஜெண்ட் சார்ந்த (agentic) AI தளம் சாட், ஏஜெண்ட், நிறுவன ஆப்களை ஒன்றிணைத்து உங்கள் சொந்த விசையை (BYOK) கொண்டுவர அனுமதிக்கிறது — எந்த மாதிரி இயங்கும் என்பதை நீங்களே தீர்மானிக்கிறீர்கள்.
தமிழ் LLM-களுக்கு ஒப்பீட்டளவில் நடுத்தர/குறைந்த-வளம் கொண்ட மொழி — ஹிந்திக்கு பின்னால், ஆங்கிலம்/ஐரோப்பிய மொழிகளை விட பின்னால். ஒரு தொழில்நுட்ப எச்சரிக்கை: தமிழ் உரைக்கு ஆங்கிலத்தை விட ~2 மடங்கு டோக்கன்கள் தேவை, இது செலவை/வரம்பை அதிகரிக்கிறது. IndicGenBench (Google ஆராய்ச்சி) படி, சிறந்த மாதிரிகளும் கூட இந்திய மொழிகளில் ஆங்கிலத்தை விட குறிப்பிடத்தக்க இடைவெளி காட்டுகின்றன. வழங்குநரின் «மிகச் சிறந்தது» கூற்று வழங்குநரின் கூற்றே; குறிப்பிட்ட தரவரிசை தருமுன் சரிபார்க்கவும்.
தமிழ்-திறன் கொண்ட திறந்த-எடை மாதிரிகள் உண்டு: AI4Bharat (IIT மெட்ராஸ், சென்னை) — IndicTrans2 (மொழிபெயர்ப்பு, MIT), IndicBERT v2 (புரிதல்/என்கோடர், MIT, உரையாடல் அல்ல), IndicF5/Indic-TTS (தமிழ் பேச்சு), IndicConformer (ASR, MIT); Sarvam AI — Sarvam-M (24B, Apache-2.0; தமிழ் ~8% பயிற்சி கலவை), Sarvam-105B (2026 பிப்ரவரி, Apache-2.0, 22 மொழி, இந்திய சார்வபௌம மாதிரி); Tamil-LLaMA (Abhinand, 7B, Llama-2 சார்ந்தது, 2023-கால, பராமரிக்கப்படவில்லை); Krutrim-2 (12B, கட்டுப்படுத்தப்பட்ட உரிமம்). இவை மிக சக்திவாய்ந்தவை என்பதால் அல்ல, தமிழ் மொழி + தரவு-வசிப்பிடம் + சுய-ஹோஸ்டிங் காரணமாக ஆர்வமூட்டுபவை — பட்டியலிடுங்கள், மகுடம் சூட்டாதீர்கள்.
மேலும் படிக்க
இந்த கட்டுரை பொதுத் தகவலுக்காக; இது தொழில்முறை, சட்ட அல்லது நிதி ஆலோசனை அல்ல. AI கருவிகள், விலை, கிடைக்கும் தன்மை வேகமாக மாறுகின்றன — எந்த முடிவுக்கும் அடிப்படையாக்கும் முன் அதிகாரப்பூர்வ பக்கத்திலிருந்து சமீபத்திய தகவலை சரிபார்க்கவும்.