郭朝晖
大数据的概念源于搜索引擎等互联网行业。在这些行业中,成千上万个网站的数据不断加入,数据格式各种各样。互联网公司认为这是个机会,但数据量大到难以处理。于是,谷歌提出一套办法解决这类问题,大数据的概念就此产生了。在这种背景下,人们总结出了大数据的几个特征,如数据量大、价值密度低、类型多、增加快等。其中有一个关键的问题——数据量大了怎么办?
伴随着摩尔定律的延续,工业企业的数据也在不断增加。于是,也有人提出了“工业大数据”的概念。但是,工业企业和互联网企业的数据背景很不一样。传统工业企业一般只采集必须的数据,比如那些与生产控制和质量标准有关的数据,而设备状态数据就很少存储或存储时间很短。人们希望得到更多的数据,但必须考虑采集和存储的成本问题。这是另外一种“数据量大了怎么办”的问题。现在,数据采集、传输和存储的成本大大降低了,数据采集和存储条件改善了,“数据量大了怎么办”的困难也就弱化了。
由此可见,在工业和互联网领域都曾面临“数据量大了怎么办”的问题。但是,在互联网行业,瓶颈是数据量大带来的困难,这出现在数据量大的时候,需要用技术手段去解决;而在工业行业,主要瓶颈是成本问题,出现在数据少的时候。所以,随着数据越来越多,在互联网行业的技术困难越来越大,而在工业行业获得数据的经济困难却越来越小。从某种意义上说,工业领域的大数据时代是“不必考虑数据量大了怎么办”的时代——因为现在有办法解决了。
事实上,工业和互联网领域对大数据的理解还有很多不同。比如,互联网领域的数据分析强调相关性,而工业领域往往需要因果关系支撑,否则,分析结果的可靠性就难以保证,会给应用过程带来极大的危害。再如,互联网数据之间的关联性相对较弱,而工业数据之间的关联性很强。
然而,很多人仍然把互联网公司的思想、概念和方法直接套用到工业界,这样做会误导工作的方向、丧失时代的机遇,是缺乏思考的表现。对于工业人来说,我们现在主要关心的不是“数据量大了怎么办”,而是如何利用数据带动技术和管理水平的提升、如何用数据带来价值。
宝钢信息技术奠基人何麟生先生在多年前就有一个愿望:“要有一个虚拟的数字化宝钢,能够在计算机和网络平台上充分地描述实体宝钢的实时活动。”这样的愿望,只有在大数据时代才有条件实现。因为只有数据足够多的时候,才能完整、实时、准确地描述和记录生产过程。就像宝钢老专家王洪水先生说的“像录像一样地记录生产过程”,这样,数据才能反映生产过程的因果关系。
有了这样的数据基础之后,我们可以全面深入地推进智能化。在笔者看来,在短期内,钢厂智能化的重点应该是管理和控制的融合。美国大河公司的实践,证明了这个方向的正确性。
在工业大数据时代,可以通过工业互联网等技术重构人和机器的界面来推进决策革命、提升企业的整体价值。这些技术又会导致更深刻的变化,如组织流程的重构、生产流程的再造、从服从到协同的文化转变等。所有这一切,都是在“数据量大了不是问题”的前提下才能实现的。这才是工业大数据真正的意义所在。
(作者系优也信息科技有限公司首席科学家,工业互联网产业联盟工业大数据组副主席)
《中国冶金报》(2020年09月15日 04版四版)