基于Apache Nutch和Solr以及Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容爬取、解析、清洗、持久化、全文检索等处理
最近更新: 2年多前Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架
最近更新: 2年多前chineseocr_lite 是一个轻量级中文 OCR 项目,提供将图片上的中文转成字符串的功能
最近更新: 接近3年前轻量级HTTP客户端API框架,让Java发送HTTP/HTTPS请求不再难。它比OkHttp和HttpClient更高层,是封装调用第三方restful api client接口的好帮手,是retrofit和feign之外另一个选择。
最近更新: 3年多前带有详细注释的 Redis 3.0 代码(annotated Redis 3.0 source code)。
最近更新: 3年多前基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba并采用前后端分离的企业级微服务多租户系统架构。并引入组件化的思想实现高内聚低耦合并且高度可配置化,适合学习和企业中使用。真正实现了基于RBAC、jwt和oauth2的无状态统一权限认证的解决方案,面向互联网设计同时适合B端和C端用户,支持CI/CD多环境部署,并提供应用管理方便第三方系统接入;同时还集合各种微服务治理功能和监控功能。模块包括:企业级的认证系统、开发平台、应用监控、慢sql监控、统一日志、单点登录、Redis分布式高速缓存、配置中心、分布式任务调度、接口文档、代码生成等等。
最近更新: 3年多前😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟
最近更新: 接近4年前