(一)政府价值治理中的实质法治观及其优越性 一切实质法治观均吸收了形式法治的要素,然后再补充进各种内容规定。
二、法的适用规则问题 2000年《立法法》就法的位阶、新法优于旧法、特别法优于一般法、不溯及既往等法律适用规则做了规定。以暂行命名的地方性法规12部,地方政府规章414部。
应该说,在我国多层级的立法体制下,第二种情形难以避免。第82条规定,地方政府规章可以就属于本行政区域的具体行政管理事项作出规定。若将民事、国家机构的产生、组织和职权归入相对保留的事项,授权国务院立法,超出国务院的职权、能力范围,实为不妥。重要性标准虽然有重要性不易把握的不足,但我国立法权总体是以法的位阶为中枢按重要性配置的:位阶越高,立法权越大,所调整的事项越重要,反之亦然。此外,行政处罚法、行政许可法、行政强制法对地方政府规章的设定权也做了严格限制。
《立法法》第73条第2款虽已规定:除本法第八条规定的事项外,其他事项国家尚未制定法律或者行政法规的,省、自治区、直辖市和设区的市、自治州根据本地方的具体情况和实际需要,可以先制定地方性法规。只有第一种情形,即后制定的下位法与先制定的上位法相抵触的,应当通过审查机制来解决。用大数据的机器学习方法建模,最好采取Python语言编写程序。
一些简单且明显的错误,比如审判员人数提取为2人,能够及时返查并纠正,但人工清洗全部的脏数据是不可能的。这也是左文中提到的大数据时代的一个特点,即样本量变大后,做不到人工查看每个样本。本文认为,大数据分析技术正是借助数据的收集和分析这两点,助力法律实证研究向更高阶段发展。技术不是敌人,我们的敌人是寄居在技术里的浪漫又革命的‘解决问题兽。
如今,大数据技术的兴起,缩短了该种疑义被发现的进程,并克服了主观选择案例的片面性。例如,他关于审判委员会的研究,统计了某地区的三级法院审判委员会委员的审判经验与学历背景,并将讨论的议题细化到宏观指导议题和个案议题,分别进行统计和分析。
本文的基本立足点在于:大数据分析技术如果对法学研究有影响的话,那么主要是使得法学更加社会科学化、更重视实证的方法、更习惯从大数据中探索法律世界的规律。又由于法律规范对于维持社会秩序具有极大的重要性,社会变革一般不允许像其他科学领域中那样被视为一种迭代过程,因此,在公共事务领域,失败是一个典型的只能在私下里低声讨论的事情。就立法进行事前和事后的评估,这不只是立法机关的工作职责,同时也是借此反思立法论研究的良好契机。网络上的其他数据资源也不可被忽视。
有效化解上述风险的策略包括:在跨越技术门槛上,可考虑借鉴其他学科团队式研究的模式,吸纳技术人员参与,改变过去一些法学期刊所认为的合署论文便有搭便车嫌疑的前见。而当鉴别机构的名称时,由于全国各地的命名方式不一,便会出现很多数据空缺需要填补的问题。其次,大数据方法赋能后的实证研究,为研究者提供了法律概念的社会语境。这涉及的是大数据分析技术应用现状的问题。
上述列举的那些研究成果,因此往往是知名学者的作品。这使得他们在发现哪个法条的哪个关键词存在司法适用困难、故而具有研究必要性上颇费周折。
机器学习与统计学中的回归建模方法之间最大的一点差异,在于检验模型参数的可靠性上,机器学习采用交叉检验的方法,而统计学上则主要采用假设检验的方法,其典型者如t检验。(3)拓展了可量化研究的议题,使得某些议题的论证更加充分和有说服力。
第三种是借助Excel表格中的工具、pandas等第三方库对数据逐一进行修正,通过人工的个别修正使数据回归正常。大数据技术对于实证研究而言是一场接力 大数据技术对于实证研究而言有一种接力的价值,两者的共性大于差异。前述提及的那些实证研究成果也用到文本,并主要采取人工摘录的方式进行处理,而大数据获取技术中的文本挖掘技术,通过计算机就可实现数据结构化。当前的语料获取问题,应重点聚焦于如何便利地获取法律类文书。前述的多案例分析,还很难称得上是严格意义上的实证分析。现阶段在计算机还没有能力自查和纠错的情况下,学术共同体对待数据获取环节的准确性只能给予更多的包容。
这是大数据法学研究早期阶段的特点。有监督的机器学习,其建模方法为研究者提供了一种新思路,即把样本一分为二,区分训练集和测试集,用训练集拟合参数,用测试集评估数据模型的准确性。
在大数据法学研究的成熟阶段,各研究者可能反复使用同一批大数据,并有一系列量化的模型衡量指标。以构建回归模型做研究为例,中国法学界目前用过的回归算法种类屈指可数。
有学者认为,计算法学可归属为实证法学的基本范畴,计算法学通过兼收并蓄的统合吸纳了定性研究和定量研究各自的优长。本文认为,地域间、时间跨度中的中国法治实践差异,可通过大数据的时间序列、地理坐标图等各种形式予以呈现,法学研究要逐渐习惯于用数字化的方法发现并解释中国法治实践中的问题。
范式一词在托马斯·库恩(Thomas Kuhn)那里,是指一个成熟的科学共同体在某段时间内所认可的研究方法、问题领域和解题标准的源头活水。在传统的法学研究中,我们便已看到许多研究者用到法律年鉴、地方志等信息,而此类信息如今已基本实现无纸化、网络化。某些研究虽然其方法有一定的创新,比如采用决策树的方法,但又和机器学习的决策树算法相去较远。大数据技术作为一种方法并不直接产生新议题,但是能够增强旧有议题的论证能力,为原先难以量化研究的重要议题开启新的篇章。
胡铭关于司法公信力的研究,通过向社会公众和司法官分别发放问卷,比较和审视对于影响司法公信力的要素的认知与评判。(三)加强某些议题的论证力度 数据源和样本量的扩大,分析能力的增强,使得某些研究议题有机会变换新的角度、充实更有力的论据、得出更有说服力的结论。
例如,在一项针对累犯成因机制的研究中,通过给刑满释放的研究对象发放智能手机,大数据采集平台每天向研究对象发送问卷收集数据,并与定位数据、短信数据等数据源相结合,分析再犯罪的成因机制。知晓此种差异后,研究者才能对当前眼花缭乱的大数据分析技术有所甄别,优先选择那些具有较好可解释性的机器学习算法。
另一个问题在于分析软件,小样本时代没有使用分析软件的明显障碍,但在大样本时代则要考虑借助的分析工具是否恰当,能否高效运行。又如,李本森关于速裁程序的研究,则以诉讼效率、量刑均衡和诉讼权利作为其关心的因变量,采用的是多元线性回归模型。
大数据技术运用的各个节点 从实证研究的过程来看,在选择议题、提出假设和设计变量等步骤中,数据的收集和分析是大数据技术最相关的两个环节。(三)万级以下的样本量 实证研究的论文中约定俗成要报告样本量,而之所以特别指出研究所用的样本量大小,是由于样本量直接关系到根据小样本得出的结论能否推及至更大的范围,因此抽样是统计学中很重要的概念。毕竟,现代国家的管理是数目字管理,在现代政府的协调性行政控制中,对这些官方数据的例行监测是不可或缺的。规范之所以需要解释,是因为存在疑义。
白建军等人开始关注引起某一现象的原因,试图建立自变量和因变量之间统计学意义上的相关性,所采用的回归模型主要为多元线性回归、logistics回归等常见模型。接着结合笔者担任大数据分析师的经历,针对技术细节作梳理。
在数据清洗的实践中,可以发现存在如下几种规律:(1)词汇类型有限的数据项,需要清洗的脏数据比较少。形成一个范式,是任何一个学科在发展中达到成熟的标志。
对裁判文书的利用,比如文姬关于信用卡诈骗罪的研究当中有很多维度的信息挖掘,包括审级、行为人出生年等16个变量。周翔,浙江大学光华法学院特聘副研究员 原文刊载于《法学家》2021年第6期 进入专题: 法学研究方法 大数据