AI4Bharat (IIT மெட்ராஸ், சென்னை) இந்திய மொழிகளுக்கான திறந்த-மூல தரவுத்தொகுப்பு, கருவி, மாதிரிகளை உருவாக்கும் ஆராய்ச்சி குழு — ஒரு உண்மையான உள்ளூர் தமிழ் நங்கூரம். IndicTrans2 (மொழிபெயர்ப்பு), IndicBERT (புரிதல்), IndicF5 (தமிழ் குரல்) போன்றவை பெரும்பாலும் MIT உரிமத்தில்.

ஒரே பார்வையில்

அம்சம்விவரம்
தயாரிப்பாளர்AI4Bharat (IIT மெட்ராஸ், சென்னை)
முக்கிய வெளியீடுகள்IndicTrans2, IndicBERT, IndicF5, IndicConformer
உரிமம்பெரும்பாலும் MIT (திறந்த)
தமிழ்ஆம் (வடிவமைப்பு கவனம்)

நன்மைகள்

  • தமிழ் உட்பட இந்திய மொழிகளுக்கு வடிவமைக்கப்பட்ட திறந்த கருவிகள் (பெரும்பாலும் MIT)
  • IndicTrans2 (மொழிபெயர்ப்பு), IndicF5 (தமிழ் குரல்), IndicConformer (ASR)
  • சென்னை-சார்ந்த உண்மையான உள்ளூர் தமிழ் ஆராய்ச்சி நங்கூரம்

குறைபாடுகள், கவனிக்க வேண்டியவை

  • இவை குறிப்பிட்ட பணிகளுக்கானவை (மொழிபெயர்ப்பு/குரல்/புரிதல்) — பொது சாட்போட் அல்ல
  • Airavata LLM ஹிந்தி-மட்டுமே (தமிழ் அல்ல)
  • சொந்தமாக இயக்க தொழில்நுட்ப அறிவு தேவை

யாருக்கு ஏற்றது?

தமிழ் மொழிபெயர்ப்பு, குரல் (TTS), பேச்சு-உரை (ASR), புரிதல் பணிகளுக்கு திறந்த, சொந்தமாக இயக்கக்கூடிய கருவிகள் தேடும் டெவலப்பர், நிறுவனங்களுக்கு ஏற்றது.

சாட், ஆட்டோமேஷன், டிரான்ஸ்கிரிப்ஷன், படம் — ஒவ்வொன்றுக்கும் தனித்தனி சந்தா கட்டுகிறீர்களா? எல்லாவற்றையும் ஒரே இடத்தில் கொண்டுவருவதும் ஒரு வழி: osFoundry போன்ற ஏஜெண்ட் சார்ந்த (agentic) AI தளம் சாட், ஏஜெண்ட், நிறுவன ஆப்களை ஒன்றிணைத்து உங்கள் சொந்த விசையை (BYOK) கொண்டுவர அனுமதிக்கிறது — எந்த மாதிரி இயங்கும் என்பதை நீங்களே தீர்மானிக்கிறீர்கள்.

தமிழ்-திறன் கொண்ட திறந்த-எடை மாதிரிகள் உண்டு: AI4Bharat (IIT மெட்ராஸ், சென்னை) — IndicTrans2 (மொழிபெயர்ப்பு, MIT), IndicBERT v2 (புரிதல்/என்கோடர், MIT, உரையாடல் அல்ல), IndicF5/Indic-TTS (தமிழ் பேச்சு), IndicConformer (ASR, MIT); Sarvam AI — Sarvam-M (24B, Apache-2.0; தமிழ் ~8% பயிற்சி கலவை), Sarvam-105B (2026 பிப்ரவரி, Apache-2.0, 22 மொழி, இந்திய சார்வபௌம மாதிரி); Tamil-LLaMA (Abhinand, 7B, Llama-2 சார்ந்தது, 2023-கால, பராமரிக்கப்படவில்லை); Krutrim-2 (12B, கட்டுப்படுத்தப்பட்ட உரிமம்). இவை மிக சக்திவாய்ந்தவை என்பதால் அல்ல, தமிழ் மொழி + தரவு-வசிப்பிடம் + சுய-ஹோஸ்டிங் காரணமாக ஆர்வமூட்டுபவை — பட்டியலிடுங்கள், மகுடம் சூட்டாதீர்கள்.

தமிழ் மொழிபெயர்ப்பு: Google Translate தமிழை ஆதரிக்கிறது ஆனால் குறைந்த-வள அடுக்கில் — சொற்களின் வரிசை + வளமான விகுதிகள் தரத்தை பாதிக்கும்; முக்கியமான உரைக்கு மனித திருத்தம் அறிவுறுத்தப்படுகிறது. DeepL இப்போது தமிழை பட்டியலிடுகிறது ஆனால் «அடிப்படை மொழிபெயர்ப்பு» மட்டுமே (சொற்களஞ்சியம்/நினைவகம் இல்லை). AI4Bharat IndicTrans2 (திறந்த மூல, MIT) — 22 இந்திய மொழிகளுக்கான மொழிபெயர்ப்பு மாதிரி, பல தமிழ் டெவலப்பர்கள்/நிறுவனங்கள் விரும்பும் சொந்தமாக இயக்கக்கூடிய வழி.

மேலும் படிக்க

இந்த கட்டுரை பொதுத் தகவலுக்காக; இது தொழில்முறை, சட்ட அல்லது நிதி ஆலோசனை அல்ல. AI கருவிகள், விலை, கிடைக்கும் தன்மை வேகமாக மாறுகின்றன — எந்த முடிவுக்கும் அடிப்படையாக்கும் முன் அதிகாரப்பூர்வ பக்கத்திலிருந்து சமீபத்திய தகவலை சரிபார்க்கவும்.