课题新闻
国家基金项目专家:大数据时代的机遇与挑战
2014-07-09 课题学习网 文章来源:光明日报 文章作者: 负责人:
国家基金项目专家:大数据时代的机遇与挑战
编者按
2014年07月07日08:23 来源:光明日报
今天,大数据(big data)一词正越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据。随着经济社会的发展,大数据可能带来的深刻影响和巨大价值日益被认识,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为我们提供了一种全新的看待世界的方法,其带来的信息风暴正全方位地改变着我们的生活、工作和思维。面对这样一种情势,我们应当以什么态度来迎接大数据时代的到来?如何使大数据为我所用?这些问题亟须我们从学理上作出科学回答。孙建军:大数据时代人文社会科学如何发展
2014年07月07日08:26 来源:光明日报
当前,科学数据在科学研究中的作用日益显著,数据密集型知识发现方法受到科学界的普遍关注:科学家不仅通过对大量数据实时、动态地监测与分析来解决科学问题,更基于数据来思考、设计和实施科学研究。数据不仅是科学研究的结果,且成为科学研究的基础;人们不仅关心数据建模、描述、组织、保存、访问、分析、复用和建立科学数据基础设施,更关心如何利用泛在网络及其内在的交互性、开放性,利用海量数据的可知识对象化、可计算化,构造基于数据的、开放协同的研究与创新模式。在人文社会科学领域,以“人文计算”、复杂网络分析、大规模数据分析为特征的研究方法逐渐被采纳,人文社会科学的“科学性”显著增强,而批判性与人文关怀有所弱化,学界对此褒贬不一。
人文社会科学研究的数据挑战
其一,科研资料总量的快速增加给人文社会科学学者带来了巨大挑战。2006年,Gregory Crane提出,当前人文社会科学研究者在自身研究领域都面临大量文献资料的处理,这些文献资料的数量已经大大超越了传统阅读能力所能处理的范畴,因而人文社会科学学者也将不得不借助计算机来处理完成相关文献资料,即“百万图书的挑战(Million Books Challenge)”问题。随着跨学科研究趋势的日益增强,传统人文科学和社会科学领域引入了大量的计算机处理模式和分析方法,各类依托计算机存储媒介数字学术资源的开发,基于复杂运算和分析的计算机模拟与实证,基于事实与证据的商业预测与案件证据推理等研究议题广泛兴起,从根本上改变了人文知识的获取、标注、比较、取样、阐释与表现方式。尤其在语言学、文学、历史学、文艺学、民族学等多个人文领域取得了引人注目的效果,并组建了专门的科研机构,形成了国际数字人文机构联盟和数字人文中心网络两大数字人文研究联盟。
其二,资料的数字化改变了传统人文社会科学的资料类型,数字资源的采集、加工和处理对研究成果的获得作用日益显著。目前,海量的图书、报纸、期刊、照片、绘本、乐曲、视频等人文资料被数字化,并在互联网上被提供给研究者存取利用。而以“大数据”为代表的数据资源相对于数字文本、数字文献等数字信息资源,来源更加广泛,数据粒度更小,记录单元更加碎片化,结构更加多元化,机器生成数据也显著多于人工生成数据,信息质量参差不齐,对资料的汇集、保存和综合利用更加依赖计算机的辅助,人文社会科学也越来越需要依赖计算机对研究过程的支撑,传统人文社会科学学者对计算机技术和分析技巧的缺失甚至可能影响人文社会科学研究的最终实现,进而将计算机分析处理能力延伸为人文社会科学研究者科研素养的重要组成部分。
大数据与人文社会科学研究新思维
从当前数字人文和人文大数据研究情况看,人文及社会计算方法与人文社会科学研究的融合出现了三类新的研究思维:
其一,人文社会科学开放与全过程研究思维。以往人文社会科学研究成果的表现形式为最终成果,再利用主要以文献引用、转述和评论等为主。而数字人文研究可记录人文社会科学研究的完整过程,资源化的原始数据、中间成果得以立体化应用,再利用水平显著提升。目前,国外以在线实验室、项目网站、开放数据集、项目论坛、项目社会网络为特征的立体开放研究思维普遍确立,可参与性大大增强。
其二,人文社会科学碎片化重组研究思维。大数据环境下,人文社会科学研究更加注重片段数据、海量数据、非结构化数据的采集、清洗与分析,通过碎片化重组,深度揭示难以处理或无法预知的科学问题。比如通过海量自然语言表达效果观测公众的政治参与意识、通过科学家的在线时间与资源下载时间分布研究科学家的作息时间与工作强度等。
其三,人文社会科学计算分析研究思维。以往人文社会科学研究定性研究居多,定量研究也主张采用是非论断,采纳或拒绝某一特定假设,是采用确定性、因果关系的研究思维。在大数据环境下,人文社会科学研究可采用计算分析思维,对相关命题进行趋势分析。
此外,在上述研究思维体系下,跨学科协作、跨平台协作、海量资料加工以及人文社会科学的计算化趋势日益明显,并涌现出若干研究取向与热点问题。
人文社会科学大数据研究的基本特征
综合已有的研究,人文社会科学的大数据研究具有如下基本特征:
一是所涉及资料均大大超过一般的阅读、分析和理解所能处理的范畴,是以往“不可研究”或“难以研究”的,大数据分析方法的出现提供了人文社会科学研究新的研究空间,提供了新的研究可能。
二是一般引入计算分析方法,其结论并非观察、思索、领悟等传统方法获得,而是通过大量数据的汇集而“自动涌现”,其理论的获得不同于传统人文社会科学研究。
三是均构建了可持续完善和丰富的数据集和分析工具,其可用性、共享性、重用性、协作性大大增强,提供了人文社会科学学者大规模协作的可能。
四是均具有跨学科特征。数字人文研究需要汇集专业领域技能、数据管理技能、数据分析技能和项目协作技能,因而这类项目往往由跨度较大的不同学科的专业学者共同完成。
五是决定研究质量的主要是数据集的质量、数量和利用方式,而研究假设相对容易。在某种程度上,数据科学家将成为人文社会科学大数据研究中的主角。
人文社会科学大数据研究的隐忧
虽然以微软、谷歌、IBM为代表的主流数据服务商都极力推崇数字化人文社会科学研究的美好前景,但其也存在不足:
首先,非场景化的研究逻辑缺乏适用性与人文关怀。由于完全剥离了数据所处的具体环境,数据可能生涩,并且缺乏可理解性和适用性。比如商业分析中的数据挖掘,其可用性仅10%左右,并非“一挖就灵”。2012年,加拿大作家史蒂芬·马尔什在其文章《文学不是数据:反对数字人文》中也表示,将文学当作数据会失去文学本身丰富的意蕴。
其次,人文社会科学的大数据研究有可能“敏锐地”发现问题,却无法给问题合理的解释,也无法给出有针对性的对策,限制了其应用范围。比如舆情分析、政策计算、情感计算的应用。
再次,数据分析的集群研究会消灭重要的个体特征,而个体反而是众多人文社会科学研究关注的焦点。
最后,人文社会科学大数据研究过分关注技术分析,可能忽视创新思维和思辨分析,不利于大师级人文社会科学学者的培养。
总之,随着人文社会科学数据的快速增长以及大数据分析技术的日益完善,人文社会科学的大数据研究必然会成为人文社会科学的主流领域,但不会替代现有的人文社会科学研究,而是相互补充,相得益彰。
(作者为国家社科基金重大项目“面向学科领域的网络信息资源深度聚合与服务研究”首席专家、南京大学教授)
许正中:大数据与中国的战略选择
2014年07月07日08:24 来源:光明日报
大数据支撑新时代
大数据,或称巨量资料,是指所涉及的资料量规模巨大,以致无法通过目前主流软件工具在合理时间内撷取、管理、处理并整理成为帮助企业达致经营决策目的的资讯。大数据技术不仅能够提高人们利用数据的效率,而且能够实现数据的再利用和重复利用,进而大大降低交易成本,提升人们开发自我潜能的空间。人们可以低成本或零成本进行事物信息全息式的纵向历史比对和横向现实比对。大数据技术自身不仅能够迅速衍生为新兴信息产业,还可以同云计算、物联网和智慧工程技术联动,支撑一个信息技术的新时代。
云计算、物联网、大数据、智慧工程都是新一代信息技术。云计算技术是一种按使用量付费的模式,这种模式可以提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算技术可以使人们及时利用各类大数据。物联网技术的实质就是物物相连的互联网,物联网的核心和基础仍然是互联网,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。物联网技术可以溯源大数据和保证信息的真实性。智慧工程就是把感应器嵌入和装备到电网、铁路、桥梁、隧道、公路、建筑、供水系统、大坝、油气管道等各种物体中,并且进行普遍连接,与现有的互联网整合起来,实现人类社会与物理系统的整合。智慧工程可以激活沉寂的大数据。
可见,云计算、物联网、大数据、智慧工程四者之间有着紧密的联系。云计算是互联网的广泛普及和深度应用,实现了从芯片操作系统、应用软件到服务产业链的垂直整合。物联网突破了机器到机器的连接,是感知、传输、处理等技术高速发展的产物。大数据是大量数据的处理技术,实现了从数据到知识的飞跃。智慧工程基于云计算、物联网和大数据技术,实现完美结合,将数据、知识、设备、网络转换成为智慧。
大数据引领新发展
资源配置实现灵动化。物联网通过智能感知、识别技术与普适计算、泛在网络的融合应用,实现全球资源的网联。在此基础上,云计算使全球资源实现了从“端”到“云”的重新分布,给全球资源配置方式带来全局性的颠覆、整合和创新。随着全球网联水平的不断提高,云计算、物联网、大数据、智慧工程在社会生活和经济各行业中将愈发起到基础性和工具性作用,并将带来全球经济乃至社会的变革,改变人们的生活、工作甚至思考的方式。在新技术支撑下,资源配置不再受制于地理位置、物理状态,而是能按需调配,呈现灵动化趋势。
国际竞争延伸至赛博空间(Cyberspace)。领土、领海、领空这三大领域是传统国际竞争的焦点。随着大数据时代的到来,更重要的竞争领域开始凸显——赛博空间(赛博空间是哲学和计算机领域中的一个抽象概念,指在计算机以及计算机网络里的虚拟现实,有的文献译作网络电磁空间,有的误译为网络空间)。美国2014财年预算提出增加赛博安全防御经费,奥巴马政府希望通过给予研究人员更多资金和资源,使美国能够在当前的全球赛博军备竞赛中开展竞争。
大数据成为关键生产要素。随着大数据时代的到来,数据将如能源、材料一样,成为战略性资源。2012年3月,奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,将其视为“未来的新石油”,提出通过大数据加速在科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式。如何利用数据资源发掘知识、提升效益、促进创新,使其服务于国家治理、企业决策乃至个人生活服务,是大数据时代的重要战略课题。
中国的战略选择
扩大人才供给。政府应采取多种措施,扩大大数据相关人才供给。实施教育培养计划,在大学相应阶段有针对性地增加相关课程,增加学生在感知技术、数据仓库、数据搜索、数据挖掘与可视化等领域的知识积累,扩大人才储备规模。加大从其他国家、地区引进人才的力度,实施各项优惠政策、营造良好发展环境以吸引国外优秀的技术人员,增强我国相应研发实力。采取相应激励措施,鼓励企业对管理者普及数据分析技术培训,推动企业使用相关技术明确消费需求、创新产品及服务。
支持企业研发。产业安全是国家安全的基石,产业安全依赖企业实力,尤其是企业的研发能力。在明确关键技术的基础上,确定重点支持领域,加大研发支持力度,整合云计算专项、物联网专项等项目,支持大数据技术的开发、研究和应用示范,引导企业加大研发力度,实现关键技术突破。在政府部门和公用事业的信息化应用中采购大数据技术,以政府采购引导国内大数据发展。优先支持大数据技术在诸如疾病防治、灾害预测与控制、食品安全与群体事件等民生领域的应用。
加快标准建设。完善知识产权保护体系,促进数据共享和整合,推动数据价值创造。加快制定相关标准和指南,鼓励存在缺口的重要领域推进关键技术研发,推动行业标准制定机构出台各类型的标准,并给予资金支持、税收减免、费用补贴、金融支持等激励措施。
开放政府信息资源。尽快建设信息资源开放平台,促进信息共享与业务协同,努力为群众提供更方便快捷、更优质高效的公共服务,以满足各级政务部门经济调节、市场监管、社会管理、公共服务等方面的需要。根据跨部门协同办公的需要,以部门业务信息为基础,从标准、流程、数据三个方面来设计,形成“物理分散、逻辑集中”的公共数据中心,通过数据集中挖掘,提高数据利用率,提高各级政府行政管理效率和公共服务水平。出台一些配套制度,例如公开数据集的目录,强制要求进行数据公开和共享;设立奖惩制度,对于公开信息及时、可靠的予以奖励,不符合规定的予以惩处;建立预算制度,从预算角度控制各部门经费使用方向,推动数据共享,防止“信息孤岛”现象的出现。
(作者为国家社科基金项目评审专家、国家行政学院教授)
利用大数据技术创新社会治理
唐胜宏 刘振兴 王培志 2014年07月07日08:24 来源:光明日报
大数据技术为社会治理带来新机遇
社会治理是对社会的经济、政治和文化等事务进行的组织、协调、指导、规范、监督的过程。它涉及合理有效配置社会资源,比如提供教育、文化、卫生、体育、社会保障等社会公共服务和公共产品,保障社会公平与公正;涉及通过行政及司法手段保障社会安全和社会稳定。而社会治理目标的实现,是以掌握治理对象的状况及其外部环境的信息为前提的。现阶段,我国正处在社会转型期,急剧发展变化的社会,对于包括人、财、物、事等在内的庞大而复杂的社会管理信息需求,与当前大数据技术的发展不期而遇。
创新社会治理,是我国应对社会转型、化解社会矛盾、协调利益关系、维护社会秩序所面临的一项重大战略任务。针对目前社会治理领域普遍存在的服务理念滞后、决策机制不够科学、部门协作亟须加强、工作方式待改进与工作效率求提升等问题,大数据技术从认识、理论、方法、实践和效果评估等方面都能给人以启发。大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享,成为支持社会治理科学决策和准确预判的有力手段,为社会转型期的社会治理创新带来了机遇。
大数据在社会治理中的创新应用实践
建立大数据中心,及时搜集、实时处理数据信息,为科学决策提供坚实基础。政府部门是社会治理的主导者,在出台社会规范和政策时,依赖大数据进行分析,可以减少因缺少数据支撑而带来的偏差,提高公共服务的效率。实践中,浙江法院系统通过建立全国法院案件信息数据库,及时、全面、准确地采集反映案件及其审理过程情况的各类信息,为加强对办案的全流程监管,实现科学分类、多元检索和海量数据的分析比对奠定了基础。
打造大数据电子政务平台,畅通利益诉求与沟通渠道,建立主动应对的社会治理模式。大数据分析注重用户行为的分析和反馈,通过网上办事、区域联动、资源共享的电子政务平台和网格化社会管理体系,促进政府和公众互动,获取公众行为的大数据并加以分析,可以更加及时地发现社会矛盾和问题,将过去政府被动应对问题转变为主动发现问题和解决问题的治理模式。
对社会大数据进行历时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。无论是对现实社会各行业的运行监控,还是对网络虚拟社会的治理,都可以基于历时和实时的大数据分析,密切掌握市场调节失灵、社会秩序与稳定受到威胁等需要社会治理介入的节点或情况,这对于进一步加强和完善社会公共安全体系,完善社会应急管理体制等具有重要作用。
积极发展大数据技术创新社会治理
制定大数据国家战略,加强顶层规划和设计,打造“数据中国”。大数据将成为引领未来科技和社会进步的重要载体。麦肯锡的大数据研究报告称,大数据是国家和地区发展的主要指标,已经渗透到金融、健康、住房、交通、教育等重大民生领域,正在影响着企业的决策和国家发展的战略部署。国际上,美国、英国、法国等发达国家先后出台大力发展大数据技术的相关政策,日本和韩国也积极付诸大数据技术的实践。我国广东、上海、山东、浙江等部分经济发达地区也已先后启动大数据行动计划或成立大数据联盟,以促进大数据技术的发展和应用。大数据技术发展既是创新社会治理的需要,也是信息社会发展的必由之路。建议我国从国家层面设计大数据发展战略,做好顶层设计,引导和推动各领域、各行业对大数据的研究和利用。
完善大数据基础设施建设,扩大社会应用,促进数据驱动的社会决策和治理常态化。信息技术基础设施是大数据技术应用的载体,大数据本身也将成为社会基础设施的一部分。大数据中心和数据应用平台建设的水平,决定了大数据时代的数据能否被有效收集、分析、挖掘和应用。这些大数据基础设施的建设可以与国家信息化建设相融合,以政府为主导、技术型企业为主力、公众参与为纽带,形成覆盖有线与无线互联网、各种社交网络、各种使用终端在内的社会化统一数据平台,通过大数据挖掘和分析技术,有针对性地解决社会治理难题;针对不同社会细分人群,提供精细化的服务和管理。同时建立数据库资源的共享和开放利用机制,不仅打破政府部门间的“信息孤岛”现象,也加强政府与社会公众间的互动反馈,不断扩大在教育、医疗等领域的应用,使数据驱动的社会决策与科学治理常态化。
建立数据使用规范,规避大数据的使用风险。技术往往是一把双刃剑。大数据的收集和使用可能涉及国家信息安全和公民隐私等,需要在立法层面明确大数据采集和使用的原则。大数据平台本身的安全性也应引起重视,需要国家相关部门制定大数据技术标准和运营规范,重视大数据及信息安全体系建设,加强对重点领域敏感数据的监管。应当采取必要措施,构建大数据良性生态环境,调动全社会积极、有序地运用大数据技术来创新社会管理。
(人民网研究院 执笔人唐胜宏、刘振兴、王培志均为国家社科基金重大项目“突发公共事件舆情应对与效果评估信息平台建设研究”课题组成员)