首页 技术 正文
技术 2022年11月15日
0 收藏 395 点赞 3,747 浏览 3523 个字

背景:有时候服务运行的日志文件,需要统计分析,但数据量很大,并且直接在文件中看很不直观,这时可以将文件中的内容导入到数据库,入库后的数据就可以按照需求进行统计分析了。

这个是以服务器的访问日志作为示例,一个日志文件中一行的数据格式如下(文件夹中有多个日志文件):

[/Aug/::: +] ******* -  "-" "GET https://****/****/image57.png"    HIT "******" "image/png"

下面就是具体的读取文件,然后插入到数据库的过程,代码如图:

package com.mobile.web.api;import com.mobile.commons.JsonResp;
import com.mobile.model.LogInfo;
import com.mobile.service.LogInfoService;
import org.apache.commons.lang3.StringUtils;
import org.apache.log4j.Logger;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.transaction.annotation.Transactional;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController;import java.io.*;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.Locale;@RestController
@RequestMapping(value = "/test")
@Transactional
public class ImportController {
Logger log = Logger.getLogger(this.getClass()); @Autowired
private LogInfoService logInfoService; @RequestMapping(value = "/importTxt", method = RequestMethod.GET)
public JsonResp importTxt() throws IOException, ParseException {
log.debug("开始导入数据"); String encoding = "GBK";
List logInfoList = new ArrayList();
String dir = "E:\\test\\log";
File[] files = new File(dir).listFiles();
for (File file : files){           //循环文件夹中的文件
if (file.isFile() && file.exists()) { //判断文件是否存在
importFile(file, encoding, logInfoList); //将文件中的数据读取出来,并存放进集合中
} else {
return JsonResp.toFail("文件不存在,请检查文件位置!");
}
} Boolean insertFlag = logInfoService.insertBatch(logInfoList); //将集合中的数据批量入库
if (!insertFlag) {
return JsonResp.toFail("保存失败");
}
return JsonResp.ok();
}  /** 读取数据,存入集合中 */
public static void importFile(File file, String encoding, List logInfoList) throws IOException, ParseException {
InputStreamReader read = null;//考虑到编码格式
try {
read = new InputStreamReader(
new FileInputStream(file), encoding);  //输入流
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
BufferedReader bufferedReader = new BufferedReader(read);
String lineTxt = null;
SimpleDateFormat sdf = new SimpleDateFormat("[dd/MMM/yyyy:HH:mm:ss Z]", Locale.US); //时间格式化,此处有坑,下边会说到
while ((lineTxt = bufferedReader.readLine()) != null) {  //读取文件内容
String[] lineArr = lineTxt.split(" ");
int len = lineArr.length;
LogInfo logInfo = new LogInfo();     //封装实体对象做入库准备
String logDate = lineArr[] + " " + lineArr[];
System.out.println(sdf.parse(logDate)); //.............时间转换问题
logInfo.setLog1(sdf.parse(logDate));
logInfo.setLog2(lineArr[]);
logInfo.setLog3(lineArr[]);
logInfo.setLog4(lineArr[]);
logInfo.setLog5(lineArr[].substring(, lineArr[].length() - ));
logInfo.setLog6(lineArr[].substring());
logInfo.setLog8(lineArr[].substring(, lineArr[].length() - ));
String accessUrl = lineArr[];
String[] accessUrlArr = accessUrl.split("/");
logInfo.setItemName(accessUrlArr[]);
logInfo.setLog9(lineArr[]);
logInfo.setLog10(lineArr[]);
logInfo.setLog11(lineArr[]);
logInfo.setLog12(lineArr[]);
String[] uaHead = new String[len - ];
System.arraycopy(lineArr, , uaHead, , len - );//数组拷贝,a表示源数组,b表示源数组要复制的起始位置,c表示目标数组,d表示目标数组起始位置,e表示要复制的长度。
logInfo.setLog13(StringUtils.join(uaHead));
logInfo.setFileType(lineArr[len - ]); logInfoList.add(logInfo);
}
read.close(); //输入流关闭 }}

文件导入,成功;

    log文件夹下的结构如下图:

    java批量读取多个文件并存入数据库

时间转换时的坑

  SimpleDateFormat sdf = new SimpleDateFormat("[dd/MMM/yyyy:HH:mm:ss Z]", Locale.US);

  字符串转时间时:英文简写为英文格式,而转换时JRE会按照当前地区的语言格式,所以转换失败

  解决方法:带上Locale.US参数

  详细解决可参考:https://www.cnblogs.com/mufengforward/p/9480102.html

此时,如果数据量特别大时,会出现入库慢的情况,有另一种方法是:读取文件后,将数据按照想要的格式存如新文件中,然后用sql语句(或navicat客户端)导入文件;

www.feng16.com

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,492
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,907
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,740
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,495
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:8,133
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:5,297