当政府宣布任命总部位于班加罗尔的人工智能(AI)初创企业Sarvam,以建立印度首个主权大语模型(LLM)时,它踏上了大胆的旅程,需要许多学术和研究机构的支持。与城市和州政府,大型和中规模公司以及印度的大型信息技术(IT)兄弟般的一些财务和实施合作也将被要求真正领先成为一个发达的AI国家。
让我们首先了解过去二十年来朝着LLM机会取得的进步。自1950年代,马萨诸塞州理工学院的约翰·麦卡锡(John McCarthy)于1956年发明了该术语以来,AI一直经历了许多炒作周期。真正的稳定进步大概始于15年前,数据库成为数据仓库,描述性数据分析和静态形式的演示,采用机器学习技术来朝着预测性和规定性分析方向发展。这创建了第一波AI和算法模型。
使用大数据的算法决策创建了强大的预测模型和应用程序,例如公司领域的客户服务和供应链。导航系统上的天气预测和避免交通减轻了我们的工作和生活。 Google在2017年发表的一篇论文名为“注意就是您所需要的”,提出了一种新的“变压器”体系结构,使计算机能够更好地了解人类通信模型。 “注意机制”将AI的注意力集中在文本的最相关部分上,并为LLM铺平了道路,可以将任何输入令牌像句子这样的输入令牌进行预测,并预测下一个令牌。突然,这场称为生成AI的革命诞生了。直到中国人提出了DeepSeek之前,它是Chatgpt和大型基于Compute的LLM,被视为AI的未来。
在这种情况下,让我们了解印度的努力和球员,然后我们开始照亮公司和参与者的道路。 AI的土著基础模型将需要用于多种语言和声音,并成为印度各地的城市,村庄,公司和个人的核心AI基础设施的一部分。在像印度这样的国家需要创新的国家中,LLM将需要结合NVIDIA启用的Chatgpt的计算和大型学习能力,以及DeepSeek的蒸馏和灵活的推理能力。
让我们尝试布置路线图,以通过六个简单的步骤执行这个雄心勃勃的项目。
1)开发基础模型的体系结构,该模型将需要使用基于变压器的体系结构,该体系结构对自然语言处理进行了优化。该体系结构本身可能需要支持多种农业或天气预报的模型,以及更复杂的城市和国家管理支持模型,这些模型将与数十亿个参数合作。
2)识别数据源并收集,存储,分析和传播这些数据。从旧的手稿,书籍和文章到网站和多个数据库,该国及其周围数据集的来源是巨大的。在LLM处理之前,“撤销”或消除重复和冗余,淘汰无关紧要的信息并消除噪声的预处理任务将需要仔细选择和周到的设计。
3)不仅为大型系统,还可以对LLM进行微调,还为垂直域和水平功能应用进行微调。这包括特定任务,例如语言输入和翻译,文本转换为信息和上下文知识知识,以及针对特定地理位置或应用领域的优化结果。
4)培训LLM,通常被证明是计算能力和能源的最大消费者。必须全面地完成它,以确保单词或句子预测,使用新信息的恒定模型更新以及在培训过程中使用包含新知识的新令牌替换来升级功能。
5)准备用户社区,这是新兴数字世界中新应用程序成功或失败的原因,即使是开发和实施普通系统。在用户选择的上下文和语言中协助用户对用户进行查询和理解的构建平行学习模块至关重要。仔细设计自适应学习系统和与每个新型号的部署,都需要具有最高能力的教学设计师来确保成功。
6)在训练和广泛的测试之后,在生产环境中部署各种模型,在那里它可以开始以最小的早期幻觉来回答问题,从而导致拒绝。
政府在提供计算资源方面表现出了极大的智慧,并同时与图形处理单位服务提供商合作,以确保不采取任何快捷方式,因为这可能会使LLM的产出和结果构成质疑。与印度理工学院马德拉斯的合作伙伴关系还应为Sarvam的创始人提供深入研究的创始人,这将支持进入知识和智慧的新领域。当地资源的使用以及新的高级青年队列应使新一代的产品和平台建设者能够参与进行革命。
对于我们相信我们正在发起的倡议将使我们成为全球AI竞赛的领导者,这将太雄心勃勃,确实是荒谬的。美国和中国在AI中具有巨大的优势,我们将做得很好,以建立可比的LLM,可以在我们注视全球成功之前就可以很好地达到印度的目的。我们应该确保在需要的情况下,还要利用3亿美元的印度IT行业中嵌入的智慧,并确保在印度IT行业中嵌入的智慧,以及印度软件产品行业圆桌会议等成功的协会,以及国家软件和服务公司协会。这应该是在不抑制年轻印第安人的企业家精神的情况下,对真正的维克西特·巴拉特(Viksit Bharat)的愿望。这个新的使命可以超越我们的想象力。