日志

聚合和细分政府数据

已有 1811 次阅读2018-2-2 01:45 |系统分类:转帖-时事政治经济

zzwave.com

2000和2010年美国人口普查中关于西裔和拉丁裔人口细分数据

zzwave.com

2000和2010年美国人口普查中关于亚裔人口细分数据

世界知名统计学家汉斯·罗素林（Hans Rosling）曾经讲过一个经济衰退期间的故事 [1]，一个非常愤怒的人打电话给广播节目抱怨说：“这样的困难时候，失业率高达13％，收入下降了5％，自杀率正在攀升，我很生气，政府还在浪费资金收集统计数据。”

罗素林的故事反映了对政府数据的讽刺和普遍的缺乏理解，例如政府为什么收集数据，什么是有用的数据，以及政府如何使用数据。美国华裔社区目前对州际种族数据细分问题，面临类似的挑战。没有适当的背景及上下文，恐惧和激情猜想取代了常识和逻辑推理，造成了社区两极分化和虚假的不平等。

这篇博文提供美国政府收集和使用数据的历史观点，以及对数据汇总和细分背后推理的基本描述。希望可以帮助美国华裔社区的一些成员对这一问题做出明智和有根据的判断和决定。

政府为什么收集数据？

自罗马帝国和中国东汉二千多年来，世界各国政府一直在收集其人民的数据。一般目的很简单。它们帮助征税以提供资金，抽拉壯丁以建设军队。所以政府收集数据过去没有很好的声誉，但也是国家治理和公民责任的基础。

美国宪法第一条 [2] 规定每十年必须收集人口的数字，这被称为人口普查。每个州和全国人口将是分配众议院席位和各州之间的纳税义务的基础。这就需要汇总原始数据，形成一个全国人口总数，以及按州而细分人口数据。

第一次美国人口普查 [3] 是在1790年8月2日由当时国务卿托马斯·杰斐逊监督下进行。 13个州的官方总数是基于所有“自由人” （等于白人）和其他所有人（即奴隶）的人数的五分之三的总和，但不包括任何不征税的印第安人。美国第一个官方人口被报告为3,929,214。种族已经是一个被测量的因子。

皮尤研究中心 [4] 提供一个非常有意义的历史时间表，描述自第一次全国人口普查以来，美国政府界定的种族类别如何变化。华裔人口首次在1860年的普查出现，但仅代表加利福尼亚州; 它正式在1870年普查成为种族类别之一。1890年增加日本裔; 1920年添加菲律宾裔，印度裔和韩国裔。

美国的官方种族和民族类别是由预算和管理厅（OMB）正式定义，普查局和其他联邦机构必须遵循 [5]。最新的联邦标准于1997年发布 [6]，应用于2000年人口普查。其他联邦计划必须在2003年1月1日之前采用，用于住户调查，行政表格和记录，以及其他数据收集。

OMB 目前的报告标准必须要有五种种族：(a) 白人，(b) 黑人或非裔美国人，(c) 美洲印第安人或阿拉斯加土著，(d) 亚裔和 (e) 夏威夷土著或其他太平洋岛民。个人可以选择多个种族类别，因此还允许混族。亚裔包括源自远东，东南亚或印度次大陆的人士。2010年人口普查细分7个亚裔：华裔，日裔，菲裔，韩裔，印裔，越裔和其他亚裔。如果数据能满足一定的质量标准，OMB鼓励再进一步的细分。

美国的种族是政府的定义，而不是生物，遗传或标准的地理特征。美国创立的时候，黑白种族的概念已经存在。亚裔的定义是随着美国变得多元化，聚集各个亚洲国家来源演变而来，历史事实与一些人认为亚裔数据正在被针对性细分的信念直接矛盾。

在联邦标准建立之前，联邦机构也会根据它们各自的标准收集行政和其他类型的数据，用于各自的任务。例如，国务院从1820年至1874年以及统计局从1867年至1895年收集了移民统计资料。这些数据是1911年《Dillingham委员会移民问题报告》[7] 使用的，该报告确定了超过20个不同的欧洲种族。

联邦标准首先出现在1977年统计政策指令第15号，《联邦统计和行政报告种族和民族标准》 [8]。这是亚裔美国人的重大民权胜利，因为当时许多联邦机构只有白人，黑人和“其他” 类别，引用缺乏时间，资金和复杂性作为解释。我们许多经过这个时期的人热烈庆祝我们不再属于“其他”族。

当联邦标准成立时，联邦政府就可以从预算拨款支持。联邦机构必须根据标准，报告种族数据。当时有强大阻力抵制这个新政策，有人甚至形容它会分裂美国。联邦政府允许机构限时实施标准; 但资金和复杂性不能再被用作借口。

标准开始的时候只有一个“亚裔或太平洋岛民” 的类别。1997年修订的标准制定了目前的“亚裔”和“夏威夷土著或其他太平洋岛民” 两个类别。这次数据细分有利于两个异质群体更精准的了解顯著的差異，没有任何歧视的声称。

OMB定期审查联邦统计标准。最近的审查在《联邦公报》首次在2016年9月30日公布。基于公众反馈，OMB再次在2017年3月1日 [9] 公开征求对四个方面修改建议的意见，其中包括对中东和北非群体进行分类，并进一步细分目前各个种族和民族的类别。过程是开放和透明的。

数据聚合和细分

立国以来，美国人口变得越来越多元化，而数据的价值亦越来越被认可。政府收集数据相应地以有组织和有秩序的方式扩张，适应政府的需求，社会的利益，方法的变化，技术的进步和质量要求。

可能收集的数据是无限量的，但资源总是有限。数据是否切题从而收集一直是一个重要的考虑因素。所有收集的数据都不是绝对平等的，各有不同程度的可用性。

性别，年龄和种族是普遍被接受的核心人口因素。把总人口按这些类别而细分，很少有任何争议。1960年之前，一个人的种族是由普查员确定的。1960年以后，种族是自我选择确定的。

同样地，按地理细分数据也是相关和重要的。例如，州政府对本州失业率的关注要比全国失业率高。同样的道理，同一州内的城县也特别关注它们自己地理边界内的数据。

数据细分在美国历史过程中，提高了对社会和经济方方面面的理解，并不是一些华裔目前认为的歧视罪恶之源。然而，数据细分的程度是有技术性和非技术性的限制。例如，数据细分会增加数量，需要额外的资金，时间和资源来储存和处理。此外，数据细分不能直接或间接违反个人隐私保护的宪法保障。

虽然普查数据很有价值，但处理1880年普查数据需要八年时间。当结果出来时候，它们已经过时了。这个缺点引起几个后续发展，包括官方全国性随机调查方法的引入。

美国经济大萧条时期迫切需要更及时的失业信息，经过多层实验，目前人口调查（CPS）[10] 在1940年正式实施，是最早期全国性随机调查之一。只要随机选择总体的一小部分，就可以概率理论支持，产生科学可靠的估计和推论。例如，70年后的今天，CPS仍然根据全国约1.2亿家庭随机抽样的6万户，每月在生产全国失业统计。

另一方面，较小的样本量限制更深一层的数据细分。如果估计必须达到某个程度的可靠性，样本量不能低于一个足够水平。样本量越小，估计的可靠性越差。如果样本量太小，则无法达到可以发布的标准。例如，CPS的6万户家庭的样本数量不允许在低于州的水平细分失业统计数据。这是统计质量问题之一。

1880年人口普查的缺点也促使政府采取自动化手段取代用手计算的方法，1890年美国人口普查局首次应用新发明的机械制表机。机械制表机公司后来演变成今天的IBM。在20世纪40年代末期，人口普查局定做第一台专为民用设计的电子计算机，帮助启动了信息时代，使世界各国和社会各界受益。

21世纪迎来了大数据时代，这将最终改变数据收集和处理的格局，扭转抽样趋势。例如，美国雇员和雇主已经被单独个别跟踪，以衡量美国劳动力市场的动态性质。替代来源，数学模型和插补方法可以快速地替代缺失或错误值，尽管这些方法也可能引入错误。

数据细分有许多“黄金法则”，但没有通用的公式来确定可以接受的水平。不可否认的趋势是，大量的原始数据将被收集和链接，以便它们可以聚合到可以接受的报告和分析水平。

非政府机构已经收集了大量，详细的个人数据，这些数据都是由客户自己提供的。政府可以选择从私人来源获取或购买数据，就像它在《FISA修正法》第702节 [11] 所做的秘密，大规模，法庭受权手令的监控计划所做的一样。

政府如何使用数据？

数据本身没有意义。数据量化事实来描述现象。数据的收集可能是法律规定的。数据可以用来检查信念和意见。数据可用于分析和推断研究课题。数据可以建设性地推动社会经济发展。数据可以破坏性地摧毁生命。但数据本身既不能偏爱，亦不能歧视。核子科学是一个有争议的类比，它既被应用于提供低成本能源和推进医疗应用，但也可以用作大规模毁灭性武器。功过在於人和政府的应用，不是数据的聚合和细分。事实上，拒绝细分数据曾经被使用为歧视性的做法，将来也有可能。

随着国家变得越来越多元化和对数据的价值意识与日俱增，政府收集的数据迅速扩大。除了分配国会议席的宪法授权外，许多联邦计划都需要联邦数据进行政策分析和决策，例如民权，经济发展，教育，保健，住房，环境风险和军事招聘，将其用作每年分发4,000亿美元联邦基金的基础。

美国历史不缺乏政府超越权力，误用和滥用收集数据的事件。一个令人震惊的例子 [12] 是在第二次世界大战期间，政府秘密使用人口普查数据来帮助围捕120,000名无辜的日裔，关入拘留营。

然而，抑制数据是极端的，在美国历史上我们曾经深受其害，陷入了一个渺茫、无知、恐惧和怀疑的状态。这种做法在专制国家可能会奏效，但在民主社会中造成的危害巨大。美国的数据细分有助于华裔和其他亚裔在公民权利和平等机会方面取得进展，使我们明显的包容存在和融入美国社会。我们搭了先行者的便车而达到目前的境界。

以执法和国家安全的名义，仍然有联邦机构不提供数据，更不用说细分数据。例如，我们不知道有多少无辜守法的华裔在被政府秘密监视，进行恶性的调查或提出虚假中国间谍的起诉。要预防未来的陈霞芬和郗小星教授案例，我们需要数据帮助我们了解过去的趋势和形态，以及分析目前的情况。追求这些数据沿途充满荆棘，但我们不能简单地放弃这些权利。数据用时方恨少。

有人将美国描述为一个基于一套理想和原则的庞大社会、政治实验。在一个自由民主国家，将奴隶统计为五分之三个人，或者通过法案排除某一种族，肯定是非常讽刺和矛盾的。然而，这个实验的一部分是不断识别问题，并进行更正，追求理想，坚守原则。这需要公众参与和对政府治理和公民义务的理解。

每个社区都有自己的利益要保护，这是可以理解的，而且每个利益都应该在辩论中有合理的声音。民主政府有责任对所有的反馈进行评估，最后制定的决策或政策，不可能满足每个人或每个社区，而是为了社会全局的利益。

我们都不喜欢纳税，但我们大多数都明白我们有为社会大局缴税的义务。当自我利益成为唯一主题的时候，它可能会适得其反。潜在的风险是孤立自己本人或社区，甚至隐蔽地或公开地歧视社会其他的成员。

政府数据细分的争论

政府有多个级别 – 联邦，州和地方。目前的争议起源于一些州政府最近立法建议，收集和研究更详细的亚裔种族数据。鉴于联邦政府的正面经验，这原本是一个很好的迹象，州政府表示有兴趣，并愿意投入时间和资金，以更了解他们的亚裔州民。

一些华裔反对这些数据细分提案。反对派似乎有四条主要分析论证：

1. 据细分只针对亚裔而不是其他种族类别。因此，它必定是对华裔的歧视。

2. 数据细分程度没有限制。

3. 数据细分只会导致配额，而不是按优选择，特别是大学录取。数据细分的最终受害者将会是华裔。

4 .细分亚裔数据将会导致分裂，破坏亚裔之间的和谐。这违背了美国的同化理想。

这些想法似乎倾向于怀疑和猜想，缺乏历史背景和上下文的事实，或对现有联邦政府如何决定数据聚合和细分的程序不认识或不理解。由于联邦政府规定标准最低报告要求，并提供一般性指导，它与州政府的解释和实施是息息相关的。

OMB的2016年审查一共收到3,750条公众意见 [9]，“并参考利益相关者；分析公开的实验数据和认知测试结果；和考虑法定需求，经营可行性，成本和公共负担。在收到的意见中，超过1,200条意见表示需要进一步细分亚裔和夏威夷土著或其他太平洋岛民社区的数据。其他意见也表示了类似的数据细分需求，其中包括10条意见细分‘黑人或非裔美国人’的类别。”

作为一个移民国家，美国种族数据的聚合和细分与最近的移民趋势密切相关。1965年《移民归化法》颁布后，全国移民人数和移民比例大幅增加 [13]。几个世纪前，美国的移民主要来自欧洲。亚洲人是今天增长最快的群体。因此，亚裔对数据分解的需求最大不足为奇。引用它是对华裔歧视是一种离题的想象和虚假的不平等感觉。

拉丁裔美国人也是美国增长最快的移民群体之一，但它们被定义为美国的民族，不是种族。拉丁裔可以是任何种族 [14]，他们的种族归属是拉丁裔社区主要争议议题。拉丁裔的数据在2010年人口普查中细分为墨西哥裔，波多黎各裔，古巴裔和其他裔。填表人可以选择填写不同的拉丁来源。美洲印第安人或阿拉斯加土著，亚裔，夏威夷土著或其他太平洋岛民和其他人都有相同的选择。

如果只为自身利益试图压制或否认其他亚裔对州际数据细分的合法利益和愿望，最好的可能是华裔被认为自我为是，最坏的可能是华裔被认为歧视其他亚裔。两个可能性都不会帮助亚裔之间的和谐。我个人不愿意重走旧路，成为“其他亚裔”的一员。假设将数据细分和不利华裔后果连接成为因果关系，是与事实不符的一个信念。

建议聚合和细分数据永远不会被政府误用或滥用是天真的想法。但是，民主国家的公民义务包括参与，审查和监督政府，确保他们在规定的权限和合法范围内运作。这不是一个容易的任务，但我们也不能因为愤怒冲动行事，用伤害自己的方式来报复别人。

那些已作出决定的人当然有权保持他们的意见。但是，当足够历史背景、事实和逻辑擺在华裔美国人面前，我相信，大多数人能够对数据细分问题做出明智和有根据的决定。

特别声明

本文所表达的意见和看法全是我个人的观点，不反映任何组织或美国政府任何机构的官方立场或政策。

参考文献

[1] Gapminder (2011). The Joy of Stats by Professor Hans Rosling. http://bit.ly/2vVrYkJ.

[2] U.S. Senate (n.d.). Constitution of the United States. http://bit.ly/2uVedpg.

[3] U.S. Census Bureau (n.d.). 1790 Overview - History. http://bit.ly/2tz3Kfm.

[4] Pew Research Center (n.d.). What Census Calls Us: A Historical Timeline. http://pewrsr.ch/2tW6FOF.

[5] U.S. Census Bureau (n.d.). About Race. http://bit.ly/2tVNMeE.

[6] The White House (n.d.). Revisions to the Standards for the Classification of Federal Data on Race and Ethnicity. http://1.usa.gov/1TqnhqO.

[7] Archive.org (n.d.). Reports of the Immigration Commission by United States. Immigration Commission (1907-1910). http://bit.ly/2tJffBb.

[8] The White House (1997). Recommendations from the Interagency Committee for the Review of the Racial and Ethnic Standards, Appendix 1. http://bit.ly/2u4w5tB.

[9] Federal Register (2017). Proposals From the Federal Interagency Working Group for Revision of the Standards for Maintaining, Collecting, and Presenting Federal Data on Race and Ethnicity. http://bit.ly/2vfEiA0.

[10] U.S. Census Bureau (n.d.). About the Current Population Survey. http://bit.ly/2uvjHWX.

[11] Wu, Jeremy (2017). One Asian American’s Perspective on the FISA Amendments Act and Section 702. http://bit.ly/2vlGPsL.

[12] Minkel, J.R. (2007). Confirmed: The U.S. Census Bureau Gave Up Names of Japanese-Americans in WW II. Scientific American. http://bit.ly/2gD5Ade.

[13] Migration Policy Institute (n.d.). U.S. Immigrant Population and Share over Time, 1850-Present. http://bit.ly/2uPqLw5.

[14] Cepeda, Esther J. (2017). Census Bureau aside, 'Hispanic/Latino' is not a race. USA Today. https://usat.ly/2uPlrZv.

zzwave.com

作者简介：胡善庆博士是百人会的董事，陈霞芬法律维权基金的托管人，曾经在美国联邦政府任职30多年，担任过个农业部、能源部、交通部和商务部的高管。曾在联邦人口普查局（Census Bureau）工作多年，任统计和数据分析师。

作者：胡善庆博士（Jeremy Wu）

路过

鸡蛋

鲜花

支持

雷人

难过

搞笑

收藏分享邀请举报

MingHao的个人空间 http://zhenzhubay.com/?15580 [收藏] [复制] [分享] [RSS]

日志

聚合和细分政府数据

全部作者的其他最新日志

评论 (0 个评论)

MingHao