[WIP] データベース内データのJSONダンプおよびダンプされたデータのインポート #156

ochaochaocha3 · 2019-08-29T00:42:13Z

現在のデータベース内データをJSONにダンプする機能と、その機能によってダンプされたデータをデータベースにインポートする機能を作っています。

ダンプ機能では、指定したディレクトリの中に、モデルごとに以下のJSONファイルにデータを出力します。ファイル名にNがついているモデルは、件数が多いため10,000件ごとにファイルを分割するものです。

Channel -> channels.json
IrcUser -> irc_users_N.json
MessageDate -> message_dates_N.json
Setting -> settings.json
User -> users.json
ChannelLastSpeech -> channel_last_speeches.json
Message -> messages_N.json
ConversationMessage -> conversation_messages_N.json

まず最低限のダンプ機能を作ったため、正常に動くかローカル環境で試していただけないでしょうか？

もし正常に動いた場合、続いて以下のことをこのPR上で確認、決定したいと考えています。

ダンプしたデータをインポートするタスクの名前をどうするか。irclog2jsonで出力したJSONファイルのインポートのタスクとは、ファイル名などが異なるため、分ける必要があります。
- 例えば data:import:dumped_json[dir] など。
irclog2jsonで出力したJSONファイルと形式（キー名と、値の型や書式）を合わせるか。
- 最初にダンプ機能を作った段階では、Railsが標準で提供していた to_json を使ってJSONにするデータを作っていたため、そのデータと形式を合わせておくと、インポート処理を書くのが楽です。
- ダンプしたデータをインポートするタスクとirclog2jsonで出力したJSONファイルのインポートのタスクは別々に作られるため、異なる形式のJSONにするのでも大丈夫だとは思います。
ダンプ用のタスクをモデルごとに分割するか。
- 件数が多い、MessageやConversationMessageのダンプに長い時間を要するため、一部のモデルのデータだけを短時間でダンプする需要があるかもしれないと感じました。
- もし分割する場合、各モデルのデータをダンプする複数のタスクと、それらをすべて実行するタスクを作ることになるでしょう。

データ量が多いので1000件ずつのバッチ処理にする

件数が多いため、each_group_of_hash_for_json_in_batchesのバッチ処理数を 10000件に上げた（併せて、引数を渡していなかったバグを直した）

updated_at を調べるべき箇所で created_at を調べていた

koi-chan · 2019-08-29T17:55:35Z

タスクは、ダンプしたもののと過去ログ用のは分けましょう。
タスクを分けるのであれば、JSON の中身も違っていてよいと現段階では考えます。IrcUser のデータが PRIVMSG/NOTICE にあるなど、そもそもデータの中身の質が違うので、分かれていた方が自然だと思います。もし統一するのなら、過去ログの形式・タスクをダンプしたものと合わせたいです。
モデルごとに分割した方がよいと思います。ただ、いくつかのモデルはダンプ処理の必要性を感じられません。例えば ChannelLastSpeech や MessageDate は、インポート処理が速いからといって先にインポートした結果、Message や ConversationMessage がインポートされていない状態では壊れたデータでしかないはずです。分割しないのならばインポート処理を簡略化できますが、モデルごとのダンプ・インポートをするのなら正常な状態を壊してしまう可能性が高いと思います。

ただ、これらとは矛盾するようですが、今回の最終的な目的である、テーブル構造の一からの見直しするためのダンプ機能であるなら、処理は複雑化しますが IRC ネットワークを流れるデータを模したような形式での(過去ログをインポートするような)インポートを目指すべきなのかもしれないとも思います。
つまり、チャンネル(Channel)とメッセージ(Message/ConversationMessage)だけを抽出し、それらから紐づけられたデータを取り込める機能の方が、テーブル構造の改良後に使いやすいし、これでダンプされたデータ構造をそれほど意識せずに改良作業を行えるのではないかと考えています(むしろ当初はそれを想定していました)。

ochaochaocha3 · 2019-08-30T10:11:33Z

1と2について、承知しました。その方針で作ろうと思います。

3について、MessageDateとChannelLastSpeechはキャッシュ用途なので、ダンプしないことに同意します。

最後の段落について、「IRCネットワークを流れるデータを模したように」する具体例と、「テーブル構造の改良後に使いやすい」のがどのような場合かの具体例はございますでしょうか？やや抽象的で、今のところどうなるのかの想像が難しいです。

koi-chan · 2019-08-31T10:54:46Z

IRCネットワークを流れるデータを模した具体例は以下の通りです。

[
  {
    "type": "Notice",
    "channel_id": 1,
    "channel": "もの書き",
    "timestamp": "2019-08-31T19:31:12.000+09:00",
    "nick": "Role",
    "message": "koi-chan -> 2D6 = [5,5] = 10",
    "created_at": "2019-08-31T19:31:12.000+09:00",
    "updated_at": "2019-08-31T19:31:12.000+09:00",
    "user": "dicebot",
    "host": "services.cre.jp"
  }
]

上記の例のもととした conversation_messages_0.json との違いとしては以下の通りです。
messages_0.json も上と同様のデータ構造を意図しています。

チャンネル名自体のデータが存在する (channel_id と競合したときはチャンネル名を優先する)
irc_user 項目がなく、代わりにその中身である "user", "host" が存在する

こうすることで、例えば Messages-IrcUser の中間テーブルを作成するなどの「テーブル構造の改良後」のテーブルにダンプしたデータを再挿入したとき、元の IrcUser のデータと突き合わせてどのレコードとの紐付けが為されていたのかを探す処理を新しく作らずとも、IRC ボットから入力される(元からメッセージの他の構成要素とセットになっている)データを保存する処理を使い回しやすくなります。

さらに、このようにダンプデータも元のメッセージが予めセットになったデータにしておくことで、既に稼働している(チャンネルIDやIrcUserがダンプと重複するデータが保存された)データベースに追加するときにも、データの変更や復元処理が不要になります。

テーブル構造を新規に見直し作り直したプログラムの更新の際に、サービスを止める時間を短くすることも出来ます。
おそらく実際には、停止→データのダンプ→プログラムのアップデート→データのインポート→サービス再開という手順ではなく、予め違うディレクトリ・データベースで更新済みのプログラムのセットアップ(新規インストール)→サービス停止→サービス再開(IRCからデータベースへの書き込み開始)→データのインポート、という手順でプログラムの更新を行なうことも想定する可能性があります(というか可能ならば後者の手順を踏むはずです)。

ochaochaocha3 · 2019-09-01T02:41:17Z

具体例ありがとうございます。irclog2jsonが出力する形式に近いですね。多少インポートが遅くなりますが、データの整合性を考慮すると、確かにそちらの方がIrcUserなどの他テーブルに依存しない分安全で良いと思いました。徹底すると irc_user_id と同様に channel_id もなくしても良さそうに思いましたが、いかがでしょうか？

koi-chan · 2019-09-01T07:58:33Z

channel_id もなくして良いと思います。
IrcUser よりはデータの多様性が少なそうなので例では残しましたが、必須だとは思いません。

タスク分割に備えて。

ochaochaocha3 · 2019-09-07T10:20:18Z

タスクを分割しました。また、ダンプ対象からキャッシュ用のテーブルを除きました。以下のものが対象として残っています。

channels
irc_users
settings
users
messages
conversation_messages

MessageのダンプにおいてN+1問題が発生し、非常に遅かったため

channelとirc_userのデータを含むようにする。 id、created_at、updated_at、channel_id、irc_user_idを除外する。

ochaochaocha3 · 2019-09-08T03:12:15Z

タスクの分割、キャッシュ用のテーブルの除外、MessageとConversationMessageのダンプで出力する内容の変更までできました。問題がなければ、インポートの実装に進めそうです。

koi-chan · 2019-09-08T07:44:54Z

テストファイルに ChannelLastSpeech, MessageDate が残っていますが、わざとでしょうか。

状態確認用のため、コンソール出力内容に、どのタスクを実行しているかを挿入していただけませんか。

koi-chan · 2019-09-08T07:53:48Z

data:dump:json:conversation_messages にて、以下のエラーが出力されます。

NoMethodError: undefined method `user' for nil:NilClass
/home/server-admin/git/hub/log-archiver/app/models/concerns/hash_for_json.rb:52:in `to_hash_for_json_with_channel_and_irc_user'

2019-09-08 17:14 追記
データが壊れていなければ(conversation_messages.irc_user_id = 0でなければ)、きちんと実行できるようです。
手元のデータが壊れていたのが原因ですので、処理は実行完了できました。

ochaochaocha3 · 2019-09-08T10:38:04Z

確認ありがとうございます。

* data:json:concat 複数の JSON ファイルを結合する * data:json:sort_by_time タイムスタンプを元にメッセージを並べ替える * data:json:suppliment_user_host JOIN メッセージを元に推測した IrcUser を補完する

ochaochaocha3 · 2019-09-08T15:08:01Z

@koi-chan さんとの相談の結果、タスクの名前空間を json:* に変え（dumpでは json:dump）、.rakeファイルも lib/tasks/json/ に入れることになりました。

テストファイルに ChannelLastSpeech, MessageDate が残っていますが、わざとでしょうか。

状態確認用に、コンソール出力内容に、どのタスクを実行しているかを挿入していただけませんか。

おっと、これらやってませんでした。また修正します。

ochaochaocha3 · 2019-09-09T14:54:11Z

テストファイルに ChannelLastSpeech, MessageDate が残っていますが、わざとでしょうか。

これについては残しておくことにします（to_hash_for_json の動作確認ができることから、残っていても問題がないと考えたため）

「TODO」に反応してしまったため

ToDo: タスクの名前空間を json 以下に移動する PR #159

PR #159

JSON ファイルのログをデータベースに保存するタスクを追加

fix: #163 チャンネル名・ニックネームをキーとするキャッシュを用いることで、複数のチャンネルのメッセージが保存された JSON ファイルを処理できるようにした。正しいデータが与えられている場合は動くが、一部が欠損したデータを与えられた場合はチャンネルによって補完が利かない可能性がある。

…host JSON ダンプの IrcUser データ補完タスクの修正

ochaochaocha3 and others added 10 commits August 27, 2019 11:15

ChannelのJSONダンプを実装する [skip CI]

7d655d7

irclog2json の runner である import.rb をコピー [skip CI]

33ee6d2

rake タスクに書き換えた [skip CI]

fa1f7e2

hash_for_jsonをconcernに変える [skip CI]

c002bf3

IrcUserをJSONにダンプする

65f9064

データ量が多いので1000件ずつのバッチ処理にする

引数が空でないことを確認するようにした [skip CI]

157a2f3

JSON保存処理を抽象化し、各モデルに対して使えるようにする

b7200d6

MessageDateのJSONダンプを実装する

e321d5c

IrcUser にダミーデータを設定するよう変更した [skip CI]

b647533

過去ログのインポートについてドキュメントを整備した [skip CI]

a73e729

ochaochaocha3 added the 機能追加・改善 label Aug 29, 2019

ochaochaocha3 assigned ochaochaocha3 and koi-chan Aug 29, 2019

ochaochaocha3 added 6 commits August 30, 2019 00:17

SettingのJSONダンプを実装する

1446e59

UserのJSONダンプを実装する

a638eb4

MessageのJSONダンプを実装する

a1b1249

ConversationMessageのJSONダンプを実装する

6d78fc6

件数が多いため、each_group_of_hash_for_json_in_batchesのバッチ処理数を 10000件に上げた（併せて、引数を渡していなかったバグを直した）

ChannelLastSpeechのJSONダンプを実装する

aa638d1

モデルのテストの誤りを修正する

2eecb95

updated_at を調べるべき箇所で created_at を調べていた

ochaochaocha3 force-pushed the dump_to_json branch from 140e491 to 2eecb95 Compare August 29, 2019 15:17

koi-chan mentioned this pull request Sep 7, 2019

データベースバックアップ用の rake タスクを作成する #108

Open

ochaochaocha3 added 3 commits September 7, 2019 17:01

Merge branch 'master' into dump_to_json

f6dbc9d

dump.rake: リファクタリングする [skip CI]

a898862

タスク分割に備えて。

dump.rake: タスクを分割する

c22fe78

ochaochaocha3 added 2 commits September 7, 2019 20:34

dump.rake: eager_loadする列名を指定できるようにする

37a5a8c

MessageのダンプにおいてN+1問題が発生し、非常に遅かったため

ConversationMessageのJSONダンプに含めるデータを変更する

ce3fb97

channelとirc_userのデータを含むようにする。 id、created_at、updated_at、channel_id、irc_user_idを除外する。

dump.rake: 件数に合わせてファイル名を0埋めする

9ef72ca

koi-chan added 2 commits September 8, 2019 21:48

JSON ファイルの読み込み・解析処理をまとめて切り出した [skip CI]

b0a626b

koi-chan mentioned this pull request Sep 8, 2019

JSON ファイルのログをデータベースに保存するタスクを追加 #159

Merged

user, host の両方が揃っていなければダミーデータを IrcUser に挿入するようにした [skip CI]

5e43f57

Rake: data:dumpをjson:dumpに移動する [skip CI]

280b8e0

ochaochaocha3 and others added 16 commits September 10, 2019 00:02

json:dump: 現在実行されているタスクの名前を出力する [skip CI]

6bba1dc

CodeClimate: FIXMEの設定を削除する [skip CI]

ca5b4a1

「TODO」に反応してしまったため

rake ファイルを移動 [skip CI]

0ec0972

ToDo: タスクの名前空間を json 以下に移動する PR #159

タスクの名前空間を json 以下に移動する [skip CI]

87da4f3

PR #159

タスクの名前空間変更に伴い、ドキュメントを修正 [skip CI]

eeab544

supplement を complement に修正 [skip CI]

471c188

メッセージ種別・ニックネームの大小文字を区別しないようにした [skip CI]

6d722bb

Merge branch 'master' into dump_to_json-merge_rails60

8a6cb51

Merge pull request #159 from cre-ne-jp/add-json-import-script

d4696fd

JSON ファイルのログをデータベースに保存するタスクを追加

Rubocopの指示に合わせてスタイルを変更する

3e54bd5

commit: 3e54bd5 の修正の一部が戻ってしまったのを再修正

6fa7908

ソースファイルにコメントを追加

1f6e15f

Merge branch 'master' into dump_to_json

a871387

長い if 文を一時的な変数で短くした

ebadbb6

Merge pull request #167 from cre-ne-jp/fix-task-json-complement-user-…

6c625c8

…host JSON ダンプの IrcUser データ補完タスクの修正

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP] データベース内データのJSONダンプおよびダンプされたデータのインポート #156

[WIP] データベース内データのJSONダンプおよびダンプされたデータのインポート #156

ochaochaocha3 commented Aug 29, 2019

koi-chan commented Aug 29, 2019

ochaochaocha3 commented Aug 30, 2019

koi-chan commented Aug 31, 2019 •

edited

Loading

ochaochaocha3 commented Sep 1, 2019

koi-chan commented Sep 1, 2019

ochaochaocha3 commented Sep 7, 2019

ochaochaocha3 commented Sep 8, 2019

koi-chan commented Sep 8, 2019 •

edited

Loading

koi-chan commented Sep 8, 2019 •

edited

Loading

ochaochaocha3 commented Sep 8, 2019

ochaochaocha3 commented Sep 8, 2019

ochaochaocha3 commented Sep 9, 2019

[WIP] データベース内データのJSONダンプおよびダンプされたデータのインポート #156

Are you sure you want to change the base?

[WIP] データベース内データのJSONダンプおよびダンプされたデータのインポート #156

Conversation

ochaochaocha3 commented Aug 29, 2019

koi-chan commented Aug 29, 2019

ochaochaocha3 commented Aug 30, 2019

koi-chan commented Aug 31, 2019 • edited Loading

ochaochaocha3 commented Sep 1, 2019

koi-chan commented Sep 1, 2019

ochaochaocha3 commented Sep 7, 2019

ochaochaocha3 commented Sep 8, 2019

koi-chan commented Sep 8, 2019 • edited Loading

koi-chan commented Sep 8, 2019 • edited Loading

ochaochaocha3 commented Sep 8, 2019

ochaochaocha3 commented Sep 8, 2019

ochaochaocha3 commented Sep 9, 2019

koi-chan commented Aug 31, 2019 •

edited

Loading

koi-chan commented Sep 8, 2019 •

edited

Loading

koi-chan commented Sep 8, 2019 •

edited

Loading