将文件作为数据源或全部放入数据库

Leave files as data source or put all in database

我有一些日志 [200Mbytes/每天]。我想要的是使用此日志中的某些数据来构建一些统计信息并通过 Web 界面显示。预处理这些文件后,我得到 4-5 个这样的文件:

hadooper@ubuntu:/usr/local/hadoop$ du -h part-r-00000 
4.0K    part-r-00000

hadooper@ubuntu:/usr/local/hadoop$ cat part-r-00000 
201508042015    444335775
201508042020    563
201508042025    320787123
.....

我计划至少将所有这些存储一年,甚至更多。还不确定。

我的问题是在哪里存储和检索数据更好:文件还是数据库?

我打算使用 rails 作为后端。至于现在,似乎将所有内容存储在文件中都是可行的选择。但是从长远来看可能会有一些我现在还没有意识到的缺点。

我相信有很多有经验的人解决过类似的任务。非常感谢您的想法和帮助

如果您只想存储文件,请存储为 flat/zipped 文件或添加到数据库,然后将它们作为备份文件从数据库中导出。从数据库准备备份将确保以后在需要数据时更容易导入。

如果您一直都需要对它们执行查询,请将它们存储在数据库中,因为查询数据库更快(因为索引)和更容易(因为 DDL、DML 等的可用性)

如果您担心安全,请加密您的文件或加密数据库然后导出。

如果有什么情况我忘了解决,请告诉我。