如何将网页的源文件内容提取并保存在数据库中?

如何将网页的源文件内容提取并保存在数据库中? https://ncov.dxy.cn/ncovh5/view/pneumonia_peopleapp?from=timeline&isappinstalled=0 能将这个文件的数据提取到数据库中

FineReport hjcslr 发布于 2020-2-4 10:49
1min目标场景问卷 立即参与
回答问题
悬赏:14 F币 + 添加悬赏
提示:增加悬赏、完善问题、追问等操作,可使您的问题被置顶,并向所有关注者发送通知
共2回答
最佳回答
0
codeclyLv4初级互助
发布于2020-2-4 10:57(编辑于 2020-2-4 12:07)

这个是要用帆软做吗?写代码获取网页请求,然后再根据网页中各个位置数据的特征提取数据保存到数据库倒是可以。


帆软的话,可以用插件中心的函数插件:http://market.fanruan.com/plugin/512

里面有一个 HtmlFinder函数就可以试下。

需要找到要用的数据的特征值(选择器),然后一个个去调试


函数说明:

HtmlFinder

1)说明

HTML 页面元素查找函数。

HtmlFinder(参数1,参数2):第一个参数为要查找的 HTML 页面的地址,第二个参数为查询的 DOM 标记。

2)示例

HtmlFinder("http://www.baidu.com", "a[href]"):可以查找到百度首页的所有超级链接内容。

其他语法规则可以参照:Use selector-syntax to find elements


刚才试了下,这个页面不能直接通过接口请求获得,会返回:


You need to enable JavaScript to run this app.


需要 js 运行环境的,所以上面的方式还是不适合这个页面。

但其实数据已经返回了,在 <script> 标签里面 用 js 的形式定义在变量里面。


image.png


还是需要自己写个解析函数,感觉用帆软做这个还是不方便。

帆软可以结合填报,然后对应到数据库表。看你是不是需要解析数据,如果需要解析数据还是不方便的。直接保存的话也不是结构化的数据。


  • hjcslr hjcslr(提问者) 收到,谢谢。还有如何通过网页框控件将源文件内容保存在数据库中,想要具体方式?
    2020-02-04 11:30 
  • codecly codecly 回复 hjcslr(提问者) 你是需要将网页整个数据保存?还是需要提取内容在保存?
    2020-02-04 11:38 
  • hjcslr hjcslr(提问者) 回复 codecly 先将整个网页先保存起来,再想办法提取内容,如何操作?
    2020-02-04 12:58 
  • hjcslr hjcslr(提问者) 回复 codecly 如何保存网页内容,试了都不得行
    2020-02-04 14:47 
  • codecly codecly 回复 hjcslr(提问者) 主要是网页内容获取不到,可以自己写个自定义的函数去获取
    2020-02-04 14:49 
最佳回答
0
ooshanghaiLv5初级互助
发布于2020-2-4 12:54

帆软是做报表的,你们领导提这么个需求就是无知和悲剧

  • hjcslr hjcslr(提问者) 说明想让你们功能强大起来
    2020-02-04 12:58 
  • ooshanghai ooshanghai 回复 hjcslr(提问者) 可以让特朗普学中文让特朗普强大一下,看看他的鼻孔
    2020-02-04 13:41 
  • 4关注人数
  • 727浏览人数
  • 最后回答于:2020-2-4 12:54
    请选择关闭问题的原因
    确定 取消
    返回顶部