上周,政府启动了Aikosha – 国家数据集平台。贾廷·格罗弗(Jatin Grover)解释说,这标志着该过程的开始的开始,以使跨多种印度语言的印度特定数据易于使用,以使创业公司能够构建本地大型语言模型。
什么是Aikosha?
Aikosha是一个平台,可提供印度特定的匿名和非个人数据集,模型和用例的存储库,这些数据集,模型和用例是构建大型语言模型(LLMS)和AI应用程序的关键。这些数据集和模型来自政府机构,例如印度医学研究理事会,巴希尼(Bhashini)以及经过验证的私人实体,例如AI创业公司(Sarvam和Ola Krutrim),它们在平台上列出了指示模型。 AI公司可以将此类多语言模型用于翻译等应用。当前,它在来自12个组织的13个扇区中具有315个数据集和84个模型。如2011年人口普查村级的几何形状,航空申诉数据集和其他数据集,以及来自Airsewa平台的其他数据,Bhasaanuvaad语音翻译,土壤水分的每日数据等。 Aikosha中的每个数据集,模型或任何其他资源都由特定的权限设置(打开数据集,限制数据集和私有数据集)来控制使用权利。平台上的所有用户都可以发现限制的数据集,但是在下载数据所有者之前,都需要从数据所有者那里获得明确的批准。
为什么需要这个平台?
印度数据集平台是10372亿卢比的印度特派团中的七个支柱之一。政府为此指定了约2亿卢比。鉴于政府正在实现印度 – 奥丁基础模型的创建,因此,同样的是跨各种语言的IND数据集来训练模型,并观察印度文化。除了计算时,右数据集上的AI模型培训使模型变得聪明,并且是提供最终用户服务的关键。目前,OpenAI,Gemini,Grok等全球模型缺乏印度数据集和语言的培训。
随着政府介入以提供这些数据集,本地LLM的开发将被加快,因为AI公司很难访问各种印度语言的可靠数据集。政府部门是匿名和非个人数据的最大持有人,因此,一个共同的存储库将帮助印度AI公司。
如何访问数据集?
为了访问数据集,用户需要在Aikosha Inaighai平台上注册。可以作为个人和具有信息的组织进行注册,例如实体类型,行业,组织名称,网站链接和注册地址。 Indiaai说,每个用户都需要在平台上首先注册为探险家。
探险家可以直接查看和下载打开数据集而无需提出任何请求。对于限制数据集,用户必须提交请求,说明下载原因。在获得组织管理员批准的情况下,用户也可以成为数据的贡献者。各个数据所有者的决定免费提供数据集的决定。政府表示,已经实施了基于角色的和基于许可的访问控制,以规范对手工艺品的访问。此外,将加密应用于静止数据和运输中的数据。
在印度特定的LLMS和计算方面的进度
政府还专注于在未来八到十个月内开发自己的基础AI模型。它收到了有兴趣建立基础AI模型的初创企业,学术机构和私营企业的67个建议。一个技术委员会正在评估这些建议,选定的项目将获得政府资金。在67项建议中,有22个建议是针对大型语言模型(LLM)的22个建议,而45个建议在医疗保健,教育和农业等部门中针对较小的领域特异性模型。选择标准将包括所涉及的团队的技术证书,模型的预期目的以及其部署的预期影响。最初,政府将选择三到五个成熟的提案来向前迈进。 AI Compute Platform可为初创公司提供访问权限,目前为14,000 GPU。
印度LLM制造的市场潜力
鉴于全球AI公司无法完全迎合该国的语言多样性,因此市场潜力很大。与纯文本模型相比,基于本地语音的AI模型中,一个很大的机会是。语音模型将增强可访问性,从而使大量人群通过语音而不是文本与AI与AI进行互动。尽管全球科技公司在其AI助手中引入了语音功能,但他们的模型主要针对英语和少数其他语言进行了优化。
“互联网将变得更加支持语音,并且会有很多人更喜欢使用语音命令访问服务,” Electronics and It(Meity)的其他秘书Abhishek Singh最近告诉FE。他说,在印度数据集中训练并专门设计的任何AI模型都将超过该领域中现有的全球模型。