વિદેશી AI મોડલ્સ હવે ભૂલી જાવ! ભારતનું ‘Sarvam Vision’ છે દુનિયાનું સૌથી પાવરફુલ OCR ટૂલ
અત્યાર સુધી આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI) ની દુનિયામાં માત્ર અમેરિકા અને ચીનનું જ વર્ચસ્વ માનવામાં આવતું હતું. ભારતને અવારનવાર માત્ર ટેલેન્ટના બજાર તરીકે જોવામાં આવતું હતું, જ્યાંથી દુનિયાને એન્જિનિયરો તો મળતા હતા, પરંતુ કોર AI ડેવલપમેન્ટના મામલે દેશ પાછળ રહેતો હતો. પરંતુ બેંગલુરુ સ્થિત સ્ટાર્ટઅપ Sarvam AI એ આ ધારણાને પૂરી રીતે બદલી નાખી છે. કંપનીએ પોતાના સ્વદેશી (Sovereign) AI મોડલના દમ પર વૈશ્વિક ટેક દિગ્ગજોને સીધી પડકાર ફેંક્યો છે, જેનાથી સમગ્ર વિશ્વના ટેક એક્સપર્ટ્સ આશ્ચર્યચકિત છે.
Sarvam Vision: જ્યારે ભારતીય ટેકનોલોજીએ દિગ્ગજોને હરાવ્યા
Sarvam AIના બે ટૂલ્સ હાલમાં સમગ્ર વિશ્વમાં ચર્ચાનો વિષય બન્યા છે— Sarvam Vision અને Bulbul. જેમાંથી ‘Sarvam Vision’ એક એવું OCR (ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન) આધારિત AI મોડલ છે, જેણે પ્રદર્શનના મામલે ChatGPT (OpenAI), Google Gemini અને Anthropic Claude જેવા અબજો ડોલરના રોકાણ ધરાવતા મોડલ્સને પાછળ છોડી દીધા છે.
તેની સચોટતા (Accuracy) એટલી જબરદસ્ત છે કે ટેકનિકલ નિષ્ણાતો હવે તેને ગ્લોબલ બેન્ચમાર્ક માની રહ્યા છે. Sarvam Vision માત્ર ફોટામાંથી ટેક્સ્ટ જ નથી ઓળખતું, પરંતુ જટિલમાં જટિલ ડોક્યુમેન્ટ્સને સમજવાની ક્ષમતા પણ ધરાવે છે.
બેન્ચમાર્ક સ્કોર: આંકડાઓમાં Sarvam ની બાદશાહત
Sarvam AI ના કો-ફાઉન્ડર પ્રત્યુષ કુમારે સોશિયલ મીડિયા પ્લેટફોર્મ X પર કેટલાક એવા આંકડા શેર કર્યા છે જેણે દુનિયાની જિજ્ઞાસા વધારી દીધી છે. કંપનીના જણાવ્યા અનુસાર:
-
olmOCR-Bench પર પ્રદર્શન: Sarvam Vision એ આ બેન્ચમાર્ક પર 84.3 ટકા ની એક્યુરેસી હાંસલ કરી છે. આ સ્કોર Google ના Gemini 1.5 Pro અને DeepSeek OCR v2 જેવા હાઈ-એન્ડ મોડલ્સ કરતા પણ વધારે છે. ચોંકાવનારી વાત એ છે કે ChatGPT નો સ્કોર આ કેટેગરીમાં Sarvam કરતા ઘણો નીચે રહ્યો છે.
-
OmniDocBench v1.5 પર રેકોર્ડ: અહીં Sarvam Vision એ 93.28 ટકા નો શાનદાર સ્કોર કર્યો છે. આ ટેસ્ટ એટલા માટે મહત્વપૂર્ણ છે કારણ કે તેમાં જટિલ લેઆઉટ, ટેકનિકલ ટેબલ્સ અને અઘરા ગણિતના સૂત્રો (Mathematical Formulas) નો સમાવેશ થાય છે. જ્યાં પરંપરાગત OCR સિસ્ટમ્સ અવારનવાર નિષ્ફળ જાય છે, ત્યાં Sarvam Vision એ સચોટતાના નવા માપદંડો સ્થાપિત કર્યા છે.
આલોચનાથી વૈશ્વિક પ્રશંસા સુધીની સફર
શરૂઆતમાં Sarvam AI ને લઈને ટેક જગતમાં ઘણો શંકા-કુશંકાઓ હતી. ઘણા લોકોને લાગ્યું હતું કે આ માત્ર ભારતીય ભાષાઓ (Indic Languages) સુધી સીમિત એક નાનો પ્રયાસ હશે. પરંતુ આજે એ જ શંકા પ્રશંસામાં બદલાઈ ગઈ છે.
પ્રસિદ્ધ ટેક કોમેન્ટેટર Deedy Das એ સ્વીકાર્યું કે તેમણે Sarvam AI ની ક્ષમતાઓને ઓછી આંકી હતી. તેમના મતે, Sarvam ના OCR અને સ્પીચ મોડલે એ ગેપ ભરી દીધો છે જેને વૈશ્વિક AI લેબ્સ દ્વારા અવગણવામાં આવ્યો હતો. ભારતીય ભાષાઓની બારીકાઈઓ અને ડોક્યુમેન્ટ સ્ટ્રક્ચરને સમજવામાં Sarvam હવે દુનિયામાં સૌથી આગળ છે. સોશિયલ મીડિયા પર યુઝર્સ તેને ‘ભારતીય AI ની ક્રાંતિ’ ગણાવી રહ્યા છે.
Bulbul V3: હવે AI બોલશે ભારતીય અંદાજમાં
OCR ની સાથે સાથે Sarvam AI એ પોતાનું નવું ટેક્સ્ટ-ટુ-સ્પીચ (TTS) મોડલ Bulbul V3 પણ લોન્ચ કર્યું છે. આ ટૂલ ઇન્ટરનેશનલ પ્લેટફોર્મ ‘ElevenLabs’ ને કડી ટક્કર આપી રહ્યું છે.
-
શું છે ખાસ: Bulbul V3 ભારતીય ભાષાઓમાં અત્યંત ‘નેચરલ’ અને ‘એક્સપ્રેસિવ’ (ભાવપૂર્ણ) અવાજો તૈયાર કરે છે. તે રોબોટિક નહીં, પણ માનવીય અવાજની ખૂબ નજીક લાગે છે.
-
ભાષાઓનો વિસ્તાર: હાલમાં Bulbul V3 માં 11 ભારતીય ભાષાઓમાં 35 થી વધુ અવાજો ઉપલબ્ધ છે. કંપનીનું આગામી લક્ષ્ય તેને ભારતની તમામ 22 સત્તાવાર ભાષાઓ સુધી લઈ જવાનું છે.
નિષ્કર્ષ: કેમ અલગ છે Sarvam AI?
Sarvam AI ની સૌથી મોટી ખાસિયત એ છે કે તેને “ભારત માટે, ભારતમાં” તૈયાર કરવામાં આવ્યું છે. જ્યાં Google અને OpenAI જેવા મોડલ વૈશ્વિક ડેટા પર આધારિત છે, ત્યાં Sarvam ને ભારતીય સંદર્ભો, ભાષાઓ અને જટિલ ડેટા સેટ પર ટ્રેન કરવામાં આવ્યું છે. આ ‘સોવરિન AI’ (Sovereign AI) ની દિશામાં ભારતનું એક મજબૂત ડગલું છે.
2026ની શરૂઆતમાં Sarvam AI ની આ સફળતા સાબિત કરે છે કે ભારત હવે માત્ર AI નો ગ્રાહક નથી, પરંતુ એક શક્તિશાળી નિર્માતા પણ બની ચૂક્યું છે.

આલોચનાથી વૈશ્વિક પ્રશંસા સુધીની સફર