编者按
做数据分析这些年,有一条颠簸不破的规律,即所谓智能算法不过是过眼云烟,最根本的还是数据查询检索……。作者利用课余时间,自己动手搭建大数据查询平台,总结了一套入门级的做法,大家都可以试一试。
1、Docker——为什么要用Docker实现?最根本的原因,紧急时能够快速解构,消除一切证据,毕竟做数据工作,风险还是很大。2、Solr——为什么要用Solr,原因就不必细说了,跟数据量和查询效率有直接关系。3、DataleakMonitor——这是小编自己编写的代理程序,主要功能是:从公网接受数据检索需求并发送到局域网内,在局域网内进行查询,把包含查询结果的数据(已通过星号进行了混淆)传输到公网,显示给用户,等待时间:约15秒。4、MySQL+PHP——网站,接受查询需求并访问结构化数据库,此处的结构化数据库主要保存查询需求、已经响应的情况等。内存:8GB;CPU:INTEL Atom C2538,2.4GHZ,4核;硬盘:600GB/21TB。用来进行测试的数据主要包括:姓名、用户名、密码、电子邮件、电话号码、网络昵称、身份证号码以及其他信息。测试总数据量:约7亿+条,查询响应时间:约0.5秒。仅提供研究之用,如有其他需要,可以单独联系作者,也可以通过本号转达信息。
文章来源: https://mp.weixin.qq.com/s?__biz=MzAxNTA4NDAwOQ==&mid=2650736948&idx=1&sn=4c0baf899ed04884f43bfe4ea7457419&chksm=8382d9b2b4f550a40ae07c71aca10064d9b099563cdd3f8d6b91933f3e8c65314864074567f0&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh