人工智能驱动世界中的数据工程格局
2023年05月25日 由 Susan 发表
569217
0
最大的影响之一是“提示工程”的广泛采用,本质上是提示人工智能协助编码相关任务的技能。我看到Andrej Karpathy在Twitter上开玩笑说:“最热门的新编程语言是英语。
生成式人工智能也掀起了一场淘金热,数十家非常早期的初创公司竞相开发一种人工智能,该人工智能可以查询数据仓库,并为数据消费者用自然语言提出的临时问题返回智能的答案。
蒙特卡洛首席技术官Shane Murray评论道:“这将从根本上简化自助式分析流程,使数据进一步民主化,但考虑到更高级分析的数据管道的复杂性,除了基本的“指标提取”之外,很难解决这一问题。”
“当我评估某个职位的数据工程候选人时,我正在寻找他们产生的影响并立即开始运作的记录,”Murray 提到。这可能是他们的主要职业,也可以通过为开源项目做出贡献。无论哪种情况,都不是你在哪里,而是你产生了什么影响?
如果你不喜欢变化,那么数据工程可能不适合你。穆雷表示:“这个领域几乎没有什么能逃脱重塑。” 显然,构建和维护数据管道的过程将变得更加容易,数据使用者访问和操作数据的能力也将变得更加容易。但是,数据的生命周期并没有改变。穆雷指出:“它被采集,它被转换以供使用,然后它被存档。”尽管底层基础设施可能会发生变化,自动化工具会帮助人们转移时间和注意力,但是人类数据工程师在从数据中提取价值方面仍将扮演关键角色,无论是构建可扩展和可靠的数据系统,还是作为所选数据领域的专业工程师。
数据平台团队提供机会
我发现数据平台团队现在在各种规模的数据团队中都很常见,它们是数据工程师提升技能的绝佳场所。
穆雷进一步解释说:“在这里,你可以专门研究业务运营中核心的数据特定领域,比如客户数据或产品/行为数据。在这个角色中,你应该努力理解从数据来源到分析使用案例的端到端问题,因为这将使你成为团队和业务的资产。”
另外,穆雷指出:“或者,你可以专注于数据平台的特定能力,如可靠性工程、业务智能、实验或特征工程。” “这些类型的角色通常可以对每个业务使用案例有更广泛但更浅显的了解,但可能是从软件工程角色向数据工程的更容易的跃迁。”
穆雷称,我越来越多地看到数据工程师的另一个角色是数据产品经理。如果一个人正在提升数据工程技能,但发现自己更喜欢与最终用户交流、阐述要解决的问题,并为团队概括愿景和路线图,那么产品管理角色可能是一个未来的前景。
随着我们转变对“数据视为产品”的处理方式,数据团队正在开始投资这种产品,这些产品包括关键的仪表板和决策支持工具,以及对业务运营或客户体验至关重要的机器学习应用。穆雷肯定地表示:“出色的数据产品经理将理解如何构建可靠和可扩展的数据产品,但也会应用产品思维来推动愿景、路线图和采用。”
现代数据堆栈
穆雷指出,现代数据堆栈很快成为数据工程领域中占主导地位的趋势技术堆栈。该堆栈以云数据仓库或数据湖为核心,配合云端数据摄取、转换、编排、可视化和数据观测的解决方案。
它的优势在于它具有快速的价值实现时间,从根本上比上一代工具更加友好,可扩展到广泛的分析和机器学习用例,并且可以扩展到当今世界管理的数据的大小和复杂性。
“确切的解决方案将根据组织规模和特定数据用例而有所不同,但通常最常见的现代数据堆栈是Snowflake,Fivetran,dbt,Airflow,Looker和Monte Carlo。也可能有Atlan和Immuta分别解决数据目录和访问问题,“Murray解释说。“大型组织或拥有更多机器学习用例的组织通常会拥有更多使用Databricks和Spark的数据堆栈。
潜在的颠覆
“由Snowflake和Databricks开启的现代数据堆栈时代甚至还没有达到整合点,我们已经看到了可能进一步破坏现代数据管道现状的想法,”Murray反映道。“在不久的将来,流数据、零ETL、数据共享和统一指标层的更广泛采用。零ETL和数据共享会特别有趣,因为它们有可能简化现代数据管道的复杂性,这些管道具有多个集成点。
技术工作格局
在大数据分析增长的推动下,科技行业就业市场预计将在 2023 年经历重大转变。根据Dice Media的分析,随着全球大数据分析市场预计将以30.7%的惊人速度增长,到346年将达到24.2030亿美元的预计价值,这种转变将会发生。预计这种增长将为该领域的熟练专业人员创造大量机会,例如数据工程师、业务分析师和数据分析师。
“我坚信数据工程工作将不仅仅是编写代码,而是涉及与业务利益相关者的更多沟通和设计端到端系统,”经验丰富的数据工程师和开源爱好者Deexith Reddy评论道。“因此,为了确保工作安全,必须同时关注数据分析的广度和数据工程的深度。
生成式人工智能可能会使数据工程领域更具竞争力。然而,在我们的电话会议上,Reddy还强调,考虑到技术进步和最近的人工智能突破,为开源项目做出贡献将始终有利于建立一个强大的投资组合。
Reddy进一步阐明了数据工程师在利用开源技术增强组织能力方面所发挥的关键作用。例如,数据工程师广泛采用Apache Spark,Apache Kafka和Elasticsearch等开源技术,数据科学家也广泛采用Kubernetes进行数据科学实践。这些 OSS 技术有助于满足深度学习和机器学习工作负载以及 MLOps 工作流的计算要求。
公司经常从这样的开源项目中识别和招募顶级贡献者,营造一个重视和鼓励开源贡献的环境。这种方法有助于留住熟练的数据工程师,并使组织能够从他们的专业知识中受益。
来源:https://www.kdnuggets.com/2023/05/data-engineering-landscape-aidriven-world.html