如果您想知道印度哪些村庄有电连接,您应该在哪里看?哪个官方数据集将为您提供可靠的当前信息?热电厂的每日操作数据如何有助于减少空气污染,同时提高水泥厂的效率?
印度坐在公共数据的金矿上。随着人工智能(AI)和数字工具的越来越多的采用,是时候释放其真正的潜力了。
印度数字倡议和公共服务的数字化大大增加了政府部门,监管机构,法定机构和公共机构产生的数据量。这些数据集中的许多数据集(包括教育,健康,环境,基础设施,税收等)已经在颗粒状水平上收集,有时甚至很频繁地更新。同时,公司和个人正在生成大量公开访问的数字信息。总之,这个“替代数据”的生态系统正在迅速扩展。
十多年来,投资者和企业一直使用此类数据来获得信息优势 – 著名的是,通过分析零售停车场的卫星图像来预测商店收入。随着时间的流逝,替代数据源已扩大,以包括交易记录,监管文件和开放数据库的刮擦。印度现在在公共领域托管了数千个此类数据集。
AI的出现为数据分析世界增加了一个强大的新玩家。曾经是经验丰富的分析师的领域,现在可以通过可以处理大量数据,识别模式并产生可行的见解的AI模型将其民主化。
年轻的分析师开始在一个行业中跟踪公司的年轻分析师将在了解行业结构及其动态方面进行无数小时的时间,弄清楚需要哪些数据来跟踪实体和何处,然后最终将这些数据集更新。可能要花几年的时间才能很好地理解详细的价值链(供应商,客户)和其他相关利益相关者(政府,行业同行等)。 AI工具可以大大加速初级分析师跟踪和公司的学习曲线,从而使他们能够以更高的效率提取更深入的见解。
AI的承诺从根本上取决于数据的可用性和质量。就像人类的智慧一样,AI也遵守“垃圾,垃圾”的规则。数据质量差,不完整或缺乏清晰度会导致误导性产出 – 或更糟糕的是幻觉。因此,确保清洁,结构化的数据管道和深层,安全的数据湖泊至关重要。
尽管私人公司将竞争开发专有的AI模型,但公共政策在改善清洁和可信数据集的访问方面起着必不可少的作用。具体而言,应公开提供由公共资源资助的数据 – 无论是通过纳税人的钱还是政府管理系统 – 应公开提供,但要受到适当的隐私和安全保障。
考虑出版颗粒状,高频公共数据集的好处。来自统一地区教育信息系统(UDISE)的数据可以指示偏远村庄的学校报告是否有电力联系,并对农村电气化索赔进行独立检查。或注意,来自热电厂的每日数据可以帮助估计粉煤灰的产生,水泥公司可以用来更有效地计划采购。
这些只是两个例子。隐藏在公开持有的数据集中的经济价值是巨大的 – 通常以意想不到的方式解锁。
印度已经发布了合并的报告,例如年度税收或每月通货膨胀指数。当更频繁地提供更多颗粒状数据时,就会出现更丰富的见解。随着AI模型的发展,它们需要宽,多样和可验证的输入才能进行训练。借助获得强大的公共数据集,研究人员,企业家和投资者可以建立能够提供更敏锐的见解,增强治理甚至预测宏观经济拐点的工具。
我们以前已经看过。在本报纸上的一篇文章(印度的财政合同:税收网中的收入更多,2024年4月19日)中,我们指出,公开可用的税收数据表明,即使平均税率仍然平稳,即使平均税率仍然平稳,而公司税收贡献仍然稳定,而尽管有较低的有效利率,则个人纳税人对税收对GDP的贡献稳步上升。想象一下,如果可以访问跨部门更精细的实时数据,AI可以浮出水面。
问候很简单:以机器可读格式公开公开资助的数据集,并且经常更新,以便它们在确保不损害隐私和安全性的同时有用。
这样做不仅会提高透明度:它将促进创新,提高生产率,并使印度在全球AI经济中具有强大的竞争优势。
作家是联合创始人Thurro。