AI4Bharat (IIT மெட்ராஸ், சென்னை) இந்திய மொழிகளுக்கான திறந்த-மூல தரவுத்தொகுப்பு, கருவி, மாதிரிகளை உருவாக்கும் ஆராய்ச்சி குழு — ஒரு உண்மையான உள்ளூர் தமிழ் நங்கூரம். IndicTrans2 (மொழிபெயர்ப்பு), IndicBERT (புரிதல்), IndicF5 (தமிழ் குரல்) போன்றவை பெரும்பாலும் MIT உரிமத்தில்.
ஒரே பார்வையில்
| அம்சம் | விவரம் |
|---|---|
| தயாரிப்பாளர் | AI4Bharat (IIT மெட்ராஸ், சென்னை) |
| முக்கிய வெளியீடுகள் | IndicTrans2, IndicBERT, IndicF5, IndicConformer |
| உரிமம் | பெரும்பாலும் MIT (திறந்த) |
| தமிழ் | ஆம் (வடிவமைப்பு கவனம்) |
நன்மைகள்
- தமிழ் உட்பட இந்திய மொழிகளுக்கு வடிவமைக்கப்பட்ட திறந்த கருவிகள் (பெரும்பாலும் MIT)
- IndicTrans2 (மொழிபெயர்ப்பு), IndicF5 (தமிழ் குரல்), IndicConformer (ASR)
- சென்னை-சார்ந்த உண்மையான உள்ளூர் தமிழ் ஆராய்ச்சி நங்கூரம்
குறைபாடுகள், கவனிக்க வேண்டியவை
- இவை குறிப்பிட்ட பணிகளுக்கானவை (மொழிபெயர்ப்பு/குரல்/புரிதல்) — பொது சாட்போட் அல்ல
- Airavata LLM ஹிந்தி-மட்டுமே (தமிழ் அல்ல)
- சொந்தமாக இயக்க தொழில்நுட்ப அறிவு தேவை
யாருக்கு ஏற்றது?
தமிழ் மொழிபெயர்ப்பு, குரல் (TTS), பேச்சு-உரை (ASR), புரிதல் பணிகளுக்கு திறந்த, சொந்தமாக இயக்கக்கூடிய கருவிகள் தேடும் டெவலப்பர், நிறுவனங்களுக்கு ஏற்றது.
சாட், ஆட்டோமேஷன், டிரான்ஸ்கிரிப்ஷன், படம் — ஒவ்வொன்றுக்கும் தனித்தனி சந்தா கட்டுகிறீர்களா? எல்லாவற்றையும் ஒரே இடத்தில் கொண்டுவருவதும் ஒரு வழி: osFoundry போன்ற ஏஜெண்ட் சார்ந்த (agentic) AI தளம் சாட், ஏஜெண்ட், நிறுவன ஆப்களை ஒன்றிணைத்து உங்கள் சொந்த விசையை (BYOK) கொண்டுவர அனுமதிக்கிறது — எந்த மாதிரி இயங்கும் என்பதை நீங்களே தீர்மானிக்கிறீர்கள்.
தமிழ்-திறன் கொண்ட திறந்த-எடை மாதிரிகள் உண்டு: AI4Bharat (IIT மெட்ராஸ், சென்னை) — IndicTrans2 (மொழிபெயர்ப்பு, MIT), IndicBERT v2 (புரிதல்/என்கோடர், MIT, உரையாடல் அல்ல), IndicF5/Indic-TTS (தமிழ் பேச்சு), IndicConformer (ASR, MIT); Sarvam AI — Sarvam-M (24B, Apache-2.0; தமிழ் ~8% பயிற்சி கலவை), Sarvam-105B (2026 பிப்ரவரி, Apache-2.0, 22 மொழி, இந்திய சார்வபௌம மாதிரி); Tamil-LLaMA (Abhinand, 7B, Llama-2 சார்ந்தது, 2023-கால, பராமரிக்கப்படவில்லை); Krutrim-2 (12B, கட்டுப்படுத்தப்பட்ட உரிமம்). இவை மிக சக்திவாய்ந்தவை என்பதால் அல்ல, தமிழ் மொழி + தரவு-வசிப்பிடம் + சுய-ஹோஸ்டிங் காரணமாக ஆர்வமூட்டுபவை — பட்டியலிடுங்கள், மகுடம் சூட்டாதீர்கள்.
தமிழ் மொழிபெயர்ப்பு: Google Translate தமிழை ஆதரிக்கிறது ஆனால் குறைந்த-வள அடுக்கில் — சொற்களின் வரிசை + வளமான விகுதிகள் தரத்தை பாதிக்கும்; முக்கியமான உரைக்கு மனித திருத்தம் அறிவுறுத்தப்படுகிறது. DeepL இப்போது தமிழை பட்டியலிடுகிறது ஆனால் «அடிப்படை மொழிபெயர்ப்பு» மட்டுமே (சொற்களஞ்சியம்/நினைவகம் இல்லை). AI4Bharat IndicTrans2 (திறந்த மூல, MIT) — 22 இந்திய மொழிகளுக்கான மொழிபெயர்ப்பு மாதிரி, பல தமிழ் டெவலப்பர்கள்/நிறுவனங்கள் விரும்பும் சொந்தமாக இயக்கக்கூடிய வழி.
மேலும் படிக்க
இந்த கட்டுரை பொதுத் தகவலுக்காக; இது தொழில்முறை, சட்ட அல்லது நிதி ஆலோசனை அல்ல. AI கருவிகள், விலை, கிடைக்கும் தன்மை வேகமாக மாறுகின்றன — எந்த முடிவுக்கும் அடிப்படையாக்கும் முன் அதிகாரப்பூர்வ பக்கத்திலிருந்து சமீபத்திய தகவலை சரிபார்க்கவும்.