解释器| Aikosha：制成的印度LLM的基础

上周，政府启动了Aikosha – 国家数据集平台。贾廷·格罗弗（Jatin Grover）解释说，这标志着该过程的开始的开始，以使跨多种印度语言的印度特定数据易于使用，以使创业公司能够构建本地大型语言模型。

什么是Aikosha？

Aikosha是一个平台，可提供印度特定的匿名和非个人数据集，模型和用例的存储库，这些数据集，模型和用例是构建大型语言模型（LLMS）和AI应用程序的关键。这些数据集和模型来自政府机构，例如印度医学研究理事会，巴希尼（Bhashini）以及经过验证的私人实体，例如AI创业公司（Sarvam和Ola Krutrim），它们在平台上列出了指示模型。 AI公司可以将此类多语言模型用于翻译等应用。当前，它在来自12个组织的13个扇区中具有315个数据集和84个模型。如2011年人口普查村级的几何形状，航空申诉数据集和其他数据集，以及来自Airsewa平台的其他数据，Bhasaanuvaad语音翻译，土壤水分的每日数据等。 Aikosha中的每个数据集，模型或任何其他资源都由特定的权限设置（打开数据集，限制数据集和私有数据集）来控制使用权利。平台上的所有用户都可以发现限制的数据集，但是在下载数据所有者之前，都需要从数据所有者那里获得明确的批准。

为什么需要这个平台？

印度数据集平台是10372亿卢比的印度特派团中的七个支柱之一。政府为此指定了约2亿卢比。鉴于政府正在实现印度 – 奥丁基础模型的创建，因此，同样的是跨各种语言的IND数据集来训练模型，并观察印度文化。除了计算时，右数据集上的AI模型培训使模型变得聪明，并且是提供最终用户服务的关键。目前，OpenAI，Gemini，Grok等全球模型缺乏印度数据集和语言的培训。

随着政府介入以提供这些数据集，本地LLM的开发将被加快，因为AI公司很难访问各种印度语言的可靠数据集。政府部门是匿名和非个人数据的最大持有人，因此，一个共同的存储库将帮助印度AI公司。

如何访问数据集？

为了访问数据集，用户需要在Aikosha Inaighai平台上注册。可以作为个人和具有信息的组织进行注册，例如实体类型，行业，组织名称，网站链接和注册地址。 Indiaai说，每个用户都需要在平台上首先注册为探险家。

探险家可以直接查看和下载打开数据集而无需提出任何请求。对于限制数据集，用户必须提交请求，说明下载原因。在获得组织管理员批准的情况下，用户也可以成为数据的贡献者。各个数据所有者的决定免费提供数据集的决定。政府表示，已经实施了基于角色的和基于许可的访问控制，以规范对手工艺品的访问。此外，将加密应用于静止数据和运输中的数据。

在印度特定的LLMS和计算方面的进度

政府还专注于在未来八到十个月内开发自己的基础AI模型。它收到了有兴趣建立基础AI模型的初创企业，学术机构和私营企业的67个建议。一个技术委员会正在评估这些建议，选定的项目将获得政府资金。在67项建议中，有22个建议是针对大型语言模型（LLM）的22个建议，而45个建议在医疗保健，教育和农业等部门中针对较小的领域特异性模型。选择标准将包括所涉及的团队的技术证书，模型的预期目的以及其部署的预期影响。最初，政府将选择三到五个成熟的提案来向前迈进。 AI Compute Platform可为初创公司提供访问权限，目前为14,000 GPU。

印度LLM制造的市场潜力

鉴于全球AI公司无法完全迎合该国的语言多样性，因此市场潜力很大。与纯文本模型相比，基于本地语音的AI模型中，一个很大的机会是。语音模型将增强可访问性，从而使大量人群通过语音而不是文本与AI与AI进行互动。尽管全球科技公司在其AI助手中引入了语音功能，但他们的模型主要针对英语和少数其他语言进行了优化。

“互联网将变得更加支持语音，并且会有很多人更喜欢使用语音命令访问服务，” Electronics and It（Meity）的其他秘书Abhishek Singh最近告诉FE。他说，在印度数据集中训练并专门设计的任何AI模型都将超过该领域中现有的全球模型。