リモート開発メインのソフトウェア開発企業のエンジニアブログです

7 posts with the tag Spark

CloudWatch Logs + Spark SQL で Rails ActiveJob の実行時間を集計してみた

July 17, 2024

posted by issei_m

Rails には主にバックグラウンドで処理を実行できる ActiveJob と言う機能がありますが、先日とあるプロジェクトで、各ジョブの実行時間を集計する必要がありました。幸いデフォルトで ActiveJob はジョブの ...

続きを読む →

Spark での regex_replace

May 31, 2022

posted by 中の人(管理者)

(前回の記事で「軽く書いていきます」と言いつつ長文を書いてしまったので、今度こそ軽くまとめたいと思います。) regex_replace の説明(本題) 基本 Spark SQL には、regex_replace という ...

続きを読む →

Spark 2.x で null を含む JSON を書き出す方法

May 27, 2021

posted by issei_m

Spark 2.x では、 DataFrame を JSON に書き出す際、値が null のデータは失われます。 次のコードを見てみましょう: 定義した Person の age&nbsp ...

続きを読む →

静的データベースと動的データベース(Spark SQLの小ネタ)

September 23, 2020

posted by koji

このようなデータベースの種類を分ける概念は一般的にはないと思われますが、「Spark SQL」で開発しているとまさに動的だなぁという思いが湧いてくることが多々ありましたので記事にしてみました。(従来のRDBであるMySq ...

続きを読む →

Option(Scala)の実用的な使い方 − データのマージ処理

October 24, 2019

posted by koji

いまいち使いどころを理解できていなかったScalaのOptionですが、データのマージ処理を実装した際に、割と理解しやすいコードが書けたと感じましたのでざっくりとですがご紹介します。 環境 Scala 2.11.12 s ...

続きを読む →

Elasticsearch for Apache Hadoopを使ってSparkからAmazon ESにデータと連携してみた

June 17, 2019

posted by issei_m

今とあるプロジェクトで、Amazon EMRを使って少し大きめなボリュームのデータ処理をしているのですが、その中のあるデータの中身をWebフォームからニアリアルタイムでフィルタリングしたいと言う要望があり、その基盤として ...

続きを読む →

Spark の DataFrame のテスト

July 23, 2018

posted by 中の人(管理者)

はじめに Apache Spark では、御存知の通り大規模なデータを高速に扱う事が出来ます。大規模データ処理のインフラという観点では、速度のチューニングのために、データ構造を調整したりデータ処理の順番を最適化したりとい ...

続きを読む →