关注ChatGPT背后产业创新发展与现行立法的老矛盾

http://www.scol.com.cn(2023-4-3 9:31:52)  四川在线  编辑:盛飞

投稿邮箱:scolpl@163.com作者:陈亮
作者:陈亮   投稿邮箱:scolpl@163.com
  鼓励人工智能创新 川渝可探索相关地方性立法的一体化设计

  编者按

  聊天机器人ChatGPT的出现,正引发经济社会各方面的深层次变革。该如何理解这些变革,进而该如何调整完善四川相关政策部署以积极应对?川观智库邀请两位专家从各自研究领域进行分析,以期为读者提供认知和决策参考。

  肩负“双区”(国家新一代人工智能创新发展试验区和国家数字经济创新发展试验区)建设重任的成渝地区,在其建设国家新一代人工智能创新发展试验区实施方案和建设国家数字经济创新发展试验区工作方案中均提出,要优化制度和政策供给,打破法律法规、文化思想等在人工智能技术广泛推广应用方面的“矛盾僵局”,探索制定人工智能应用法规规章。加大成渝地区人工智能训练数据的制度供给,不仅是人工智能数据训练在人工智能研发、部署和使用中的基础性地位决定的,也是成渝两地“双区”建设方案的庄严承诺。

  现行立法对人工智能创新的限制

  ChatGPT的每一次迭代升级和能力跃升,都与人工智能训练数据息息相关,是人工智能训练数据的数据种类、数据数量、数据质量、数据标注、数据预处理以及数据增强等多种因素叠加作用的结果。举例来说,从GPT到GPT-3,算法模型改变不大,但其参数量从1.17亿增加到1750亿,预训练数据量则从5GB增加到45TB,这使其能够以前所未有的规模学习自然语言中单词和短语之间的模式和关系,以便更好地理解和响应最复杂的用户查询。

  数据质量也是ChatGPT这类大语言模型训练过程中的关键,直接影响到模型的准确性及其性能,而数据的多样性及其与目标任务的相关性则是影响数据质量的两个关键因素:多样化的数据集可以让ChatGPT训练模型接触到更广泛的语言类型和写作风格,从而确保ChatGPT更好地理解和模仿人类语言,更好地处理各种任务;数据与其目标任务的相关性,则可以确保训练模型暴露在与目标任务最相关的语言类型和写作风格上。有鉴于此,OpenAI不断努力改进用于训练模型的数据清理和数据过滤过程,删除训练数据中的噪音和不相关信息,以使其模型专注于最重要的语言模式,并更好地理解人类交流的细微差别。

  总而言之,人工智能训练数据在生成式人工智能研发中具有极其重要的地位和作用,是人工智能创新的重要推动力。有鉴于此,从法律上保障训练数据的充分供给与训练过程的科学规范则成为促进人工智能创新的重要一环。

  现行立法对我国人工智能创新的限制或阻碍,首先表现在因训练数据法律规则的缺位而导致的法律不确定性上。法律的确定性是法律的行为指引功能的题中之义和必然要求,它使人明白什么可以做、什么不能做以及做了或不做将会承担什么样的法律后果,从而确保了人类行为法律后果的可预测性。法律确定性原则表明,法律必须足够明确,以便受其约束的人可以相应地安排其行为,从而促进经济增长和技术创新。我国已有涉数立法侧重于保障个人隐私、数据自决或数据安全,较少围绕“发展什么样的人工智能”这一目标去进行体系化的制度设计,致使现有数据立法未能就训练数据的取得、种类、数量、质量、标注、清洗、格式化、规范化等关乎人工智能模型输出质量和性能的关键问题进行明确规定,导致人工智能研发企业因无法预测自己数据训练行为的法律后果而瞻前顾后、裹足不前。

  现行立法对我国人工智能创新的限制或阻碍,也表现在知识产权法对获取人工智能训练数据的限制上。生成式人工智能的研发,必须依托于海量的文本数据进行监督学习和强化学习,以优化其输出内容。在当前知识产权法语境下,这些文本数据的取得,必须经权利人许可并支付相应费用,否则将会因为侵犯被使用作品的复制、改编、信息网络传播权等权利而卷入侵权纠纷之中。

  现行立法对我国人工智能创新的限制或阻碍,还表现在个人信息保护法、数据安全法以及网络安全法等涉数法律法规对个人信息处理活动的严苛规范上。比如以规范个人信息处理活动为核心的个人信息保护法,全面而系统地构建了个人在个人信息处理活动中所享有的各种权利,包括知情权、决定权(限制、拒绝和撤回权)、查阅复制权、可携权、删除权、规则解释权等权利。这些权利不仅为个人数据的收集、共享和使用设定了较高的门槛,也为个人访问、纠正、传输以及删除第三方持有的个人数据制定了具体的规则。这些规则的存在,要么从根本上限制了训练数据的取得,要么大大增加了取得训练数据的成本。

  总而言之,无论是因为数据训练法律规则的缺位而导致的法律不确定性,还是因为既有法律规范对个人数据处理活动的严苛规范,都会增加人工智能研发企业的合规成本,提高人工智能企业的进入壁垒。

  成渝“双圈”加大数据训练制度供给的路径选择

  探索制定成渝地区人工智能训练数据地方性立法,是从理念诉求到制度设计的系统工程,必须在坚持系统观念的基础上进行一体化设计。

  坚持创新驱动,树立创新友好型的立法理念。从党的十八大报告提出实施创新驱动发展战略,到党的十八届五中全会把创新摆在新发展理念的首位;从党的十九大报告强调创新是引领发展的第一动力,到党的十九届五中全会公报提出坚持创新在我国现代化建设全局中的核心地位,再到党的二十大报告的创新是第一动力,所有这些提法,无一不昭示着坚持创新在我国现代化建设全局中的核心地位。成渝地区双城经济圈建设无疑应将坚持创新驱动贯穿于成渝地区经济社会发展的各个领域。具体到成渝地区人工智能训练数据的制度供给,坚持创新驱动就必须树立创新友好型立法理念。我们知道,法律理念是法追求的价值目标或者关于法应该是什么的理想,是“法律的灵魂”,代表了社会公认的某种终极理想和价值。在体系论者看来,法律理念的确定,是以逻辑方式推演抽象法律原则和构建具体法律规则的起点,对于任何立法均具有前提性意义。在成渝地区人工智能训练数据制度供给中树立创新友好型立法理念,就是通过风险分级制度的采纳、监管沙盒工具的引入以及安全港制度的创设等具体举措,有效平衡权利保护与创新激励之间的紧张关系,为生成式人工智能研发企业提供明确的行为预期和不竭的创新动力,推动成渝地区双城经济圈人工智能产业的良性健康发展。

  坚持系统观念,打造全生命周期的规范体系。坚持系统观念是马克思主义哲学重要的认识论和方法论,“是具有基础性的思想和工作方法”。成渝地区双城经济圈加大人工智能数据训练的制度供给,必须坚持系统观念。这就要求把人工智能数据训练置于数据全生命周期中,将其视为包括数据采集、存储、标注、清洗、整合、分析、建模等多要素在内的有机系统,这些要素的相互作用、相互影响,共同决定着数据训练的结果。打造人工智能数据训练的规范体系,必须在分析训练数据各要素的相互关系、各要素与训练数据整体之间的相互关系以及训练数据与其环境的相互关系的基础上,打造出涵盖训练数据全生命周期的规范体系。

  坚持废立并举,做好新规换旧制的有序衔接。无论是中共中央、国务院印发的《数字中国建设整体布局规划》,还是成渝两地的“双区”建设方案,均提到“及时按程序调整不适应数字化发展的法律制度”。那么梳理成渝地区已有涉数涉智法规中不适应人工智能数据训练的过时法规,及时制定符合人工智能数据训练的新兴法规,就成为成渝两地加大人工智能数据训练制度供给的必要一环。废止不适应人工智能数据训练的过时法规涉及与上位法的冲突与协调,可能超出成渝两地人大所享有的立法权。有鉴于此,成渝两地加大人工智能训练数据制度供给的重点,可以放在“做大增量”上。具体来说,就是在创新友好型这一立法理念的指导下,针对人工智能训练数据的立法空白,在充分调研和学科论证的基础上,借鉴其他国家和地区已有立法经验,制定出具有成渝特色的、体系化的人工智能数据训练法规规章体系,将成渝地区打造成人工智能地方立法的重要窗口和区域样板。

  (作者系西南政法大学人工智能法学院教授、院长)
作者文集申请开通文集
版权声明:
1、天府评论所登载文稿均仅代表作者个人观点,不代表天府评论立场。
2、作者投稿确系本人原创作品,严禁剽窃、转投他人作品,若由此引起任何法律纠纷,与天府评论无关。
3、作者向天府评论投稿时,就已表明同意四川在线全权使用本稿件。
4、欢迎网络媒体转载天府评论文章,转载时请注明来源及作者。
5、欢迎传统媒体转载天府评论文章,请与编辑联系获取作者联系方式,并支付稿费与作者。
6、传统媒体转载不支付作者稿费,网络媒体转载不注明来源及作者,天府评论将追究相关法律责任。