㈠ python3 怎麼爬取新聞網站
從門戶網站爬取新聞,將新聞標題,作者,時間,內容保存到本地txt中。
importre#正則表達式
importbs4#BeautifulSoup4解析模塊
importurllib2#網路訪問模塊
importNews#自己定義的新聞結構
importcodecs#解決編碼問題的關鍵,使用codecs.open打開文件
importsys#1解決不同頁面編碼問題
其中bs4需要自己裝一下,安裝方法可以參考:Windows命令行下pip安裝python whl包
程序:
#coding=utf-8
importre#正則表達式
importbs4#BeautifulSoup4解析模塊
importurllib2#網路訪問模塊
importNews#自己定義的新聞結構
importcodecs#解決編碼問題的關鍵,使用codecs.open打開文件
importsys#1解決不同頁面編碼問題
reload(sys)#2
sys.setdefaultencoding('utf-8')#3
#從首頁獲取所有鏈接
defGetAllUrl(home):
html=urllib2.urlopen(home).read().decode('utf8')
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'
links=soup.find_all('a',href=re.compile(pattern))
forlinkinlinks:
url_set.add(link['href'])
defGetNews(url):
globalNewsCount,MaxNewsCount#全局記錄新聞數量
whilelen(url_set)!=0:
try:
#獲取鏈接
url=url_set.pop()
url_old.add(url)
#獲取代碼
html=urllib2.urlopen(url).read().decode('utf8')
#解析
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'#鏈接匹配規則
links=soup.find_all('a',href=re.compile(pattern))
#獲取URL
forlinkinlinks:
iflink['href']notinurl_old:
url_set.add(link['href'])
#獲取信息
article=News.News()
article.url=url#URL信息
page=soup.find('div',{'id':'page'})
article.title=page.find('h1').get_text()#標題信息
info=page.find('div',{'class':'article-info'})
article.author=info.find('a',{'class':'name'}).get_text()#作者信息
article.date=info.find('span',{'class':'time'}).get_text()#日期信息
article.about=page.find('blockquote').get_text()
pnode=page.find('div',{'class':'article-detail'}).find_all('p')
article.content=''
fornodeinpnode:#獲取文章段落
article.content+=node.get_text()+' '#追加段落信息
SaveNews(article)
printNewsCount
break
exceptExceptionase:
print(e)
continue
else:
print(article.title)
NewsCount+=1
finally:
#判斷數據是否收集完成
ifNewsCount==MaxNewsCount:
break
defSaveNews(Object):
file.write("【"+Object.title+"】"+" ")
file.write(Object.author+" "+Object.date+" ")
file.write(Object.content+" "+" ")
url_set=set()#url集合
url_old=set()#爬過的url集合
NewsCount=0
MaxNewsCount=3
home='http://jia..com/'#起始位置
GetAllUrl(home)
file=codecs.open("D:\test.txt","a+")#文件操作
forurlinurl_set:
GetNews(url)
#判斷數據是否收集完成
ifNewsCount==MaxNewsCount:
break
file.close()
新聞文章結構
#coding:utf-8
#文章類定義
classNews(object):
def__init__(self):
self.url=None
self.title=None
self.author=None
self.date=None
self.about=None
self.content=None
對爬取的文章數量就行統計。
㈡ 在電腦上怎麼搜索今日頭條某個時間段的新聞
可以直接搜索日期查找。
㈢ 怎麼找網站確切某一天的所有新聞
你好,以新浪為例,你進入新浪首頁,可以看到不同的板塊,有視頻、新聞、大片、關注等等。想找新聞的話就點擊新聞,進入新聞頁面後,工具條下拉,可以看到首頁回顧,在日歷的圖標處勾選自己想查找的日期就可以了。會彈出當天的網頁來!
㈣ 寫一個新聞閱讀app,怎麼從其他網站獲取新聞
技術上來講毫無難點。具體實現步驟如下:連接新聞網站的首頁抓取HTML的內容解析抓取的HTML網頁中的標題以及文章鏈接將所有標題顯示在當前頁,並將標題以及文章鏈接傳到下一個頁面抓取文章鏈接內容,和上頁傳來的標題一起顯示在當前頁看的再多不如動手一試由於快點看出效果,所以一切就從簡了。直接建立Android項目,建立空的Activity。然後在你的layout的這個文件中加入一個按鈕。比如像這樣:然後在MainActivity里的onCreateView函數里加入一個方法,讓它能點擊你剛剛添加的按鈕進入到下一個界面:1 rootView.findViewById(R.id.button1).setOnClickListener(new View.OnClickListener() {2 3 @Override4 public void onClick(View v) {5 // TODO Auto-generated method stub6 StartGeek();7 }8 9 });點擊按鈕會觸發事件,執行StartGeek的方法,而StartGeek的方法則是跳到下一個Activity,1 private void StartGeek() {2 // TODO Auto-generated method stub3 Intent intent = new Intent();4 intent.setClass(this.getActivity(), GeekActivity.class);5 startActivity(intent);6 7 }StartGeek在這個Activity中,我們將訪問網頁,並從中獲取HTML網頁的內容,然後進行解析,獲取新聞的標題以及鏈接,然後將新聞的標題顯示在手機屏幕上,代碼具體實現如下:1 ListView listview;2 Handler handler;3 List> data;4 5 final String CSDNURL = "/bi.htm"; 首先是變數的聲明,至於變數名的問題請隨意吐槽,因為一直在嘗試拿各種網站的新聞內容,所以變數名是最初的,由於懶就一直沒換-。 -,由於新聞網站的內容較多,所以用ListView比較合適,這樣不會出現顯示不全的情況。1 @Override2 protected void onCreate(Bundle savedInstanceState) {3 super.onCreate(savedInstanceState);4 setContentView(R.layout.activity_geek);5 handler = getHandler();6 ThreadStart();7 }1 6 7 12 13 activity_geek.xml接下來是onCreate方法,這里界面是activity_geek,然後調用兩個方法,由於獲取數據費時,所以又起了一個線程,當然比較好的方法是用非同步線程來做,那樣的話不僅可以不佔用主線程,而且還可以很方便的加進度條什麼的,相當好用,至於我為什麼不用,當然是不會用了撒~1 private void ThreadStart() { 2 new Thread() { 3 public void run() { 4 Message msg = new Message(); 5 try { 6 data = getCsdnNetDate(); 7 msg.what = data.size(); 8 } catch (Exception e) { 9 e.printStackTrace();10 msg.what = -1;11 }12 handler.sendMessage(msg);13 }14 }.start(); 15 }ThreadStart這是新的線程,用於從網址獲取我們想要的HTML文件,並將其傳給handler處理。獲取的函數方法是:1 data = getCsdnNetDate();1 private List> getCsdnNetDate() { 2 List> result = new ArrayList>(); 3 Document doc = http_get(CSDNURL); 4 Elements links = doc.select("h3>a"); 5 for(Element link: links) 6 { 7 Map map = new HashMap(); 8 map.put("title", link.attr("title")); 9 map.put("url", link.attr("abs:href"));10 result.add(map);11 }12 13 14 return result;15 }getCsdnNetDate1 Document doc = http_get(CSDNURL);1 private Document http_get(String url) { 2 Document doc=null; 3 try { 4 doc = Jsoup.connect(url) 5 .timeout(50000) 6 .get(); 7 } catch (IOException e) { 8 // TODO Auto-generated catch block 9 e.printStackTrace();10 }11 12 return doc;13 }http_get通過http_get方法中的Jsoup.connect來連接到網址,然後通過.get方法來獲得HTML的文本信息,設定的連接時間是5S,獲取到這個文本信息之後Jsoup還帶有解析方法,通過link.attr("title")來獲取HTML中的標簽中的標題,然後再通過link.attr("abs:href")來獲取新聞中的鏈接,由此,我們就獲得了HTML中最為重要的兩部分,也就是標題以及鏈接,事情到這里已經完成大半了,接下來就是將標題顯示在當前頁面,然後點擊標題後,能將標題以及文中內容顯示在下個頁面,處理的方法如下:1 private Handler getHandler() { 2 return new Handler(){ 3 public void handleMessage(Message msg) { 4 if (msg.what arg0, View arg1, int arg2,12 long arg3) {13 Map map = data.get(arg2);14 String url = (String)(map.get("url"));15 String title = (String)(map.get("title"));16 Intent intent = new Intent();17 intent.putExtra("url", url);18 intent.putExtra("title", title);19 intent.setClass(GeekActivity.this, ContentActivity.class);20 startActivity(intent);21 }22 });23 }initListview這個方法會將獲取的新聞標題顯示在當前頁面上,然後將新聞的標題以及鏈接保存下來,通過intent傳到下一個Activity,也就是ContentActivity進行處理,並將標題以及內容顯示在下一個頁面中。代碼的分下如下:1 @Override 2 protected void onCreate(Bundle savedInstanceState) { 3 super.onCreate(savedInstanceState); 4 setContentView(R.layout.activity_content); 5 6 url = getIntent().getStringExtra("url"); 7 String title = getIntent().getStringExtra("title"); 8 TextView tv = (TextView)findViewById(R.id.title_content); 9 tv.setText(title);10 handler = getHandler();11 ThreadStart();12 }onCreateonCreate方法中獲取上個Activity中傳過來的url以及title,然後直接將新聞標題顯示在當前頁,然後剩餘部分和上個方法差不太多,連接到網上,獲取HTML內容,這次在方法中僅僅是解析的方法不同,畢竟這次解析是要獲取內容嘛~代碼如下:1 private List> getCsdnNetDate() { 2 List> result = new ArrayList>(); 3 Document doc = http_get(url); 4 Elements links = doc.select("div#Cnt-Main-Article->p"); 5 for(Element link: links) 6 { 7 Map map = new HashMap(); 8 map.put("title", link.text()); 9 result.add(map);10 }11 12 13 return result;14 }標紅部分為與上次不同的部分,這個解析都是用的Jsoup自帶的,當然正則表達式也是可以做到的哦,咳咳,我承認我很懶的啊,有好用的工具就直接用了,省時省力的事幹嘛不用呢,就像寫網站有框架了自然就用了,不喜歡用的我也木有辦法,你可以使用正則表達式來做,話說以前用Python做爬蟲的時候就是正則表達式做的。至此一個小的新聞的閱讀APP就出世了,哦,對了,不要忘了在你的配置文件加入Activity以及上網許可,不然的話是會閃退的哦。當然這個APP很是粗糙,有時間的人可以將圖片也加上進行一下頁面的設計,做一下美工什麼的。轉載寫一個新聞閱讀app,怎麼從其他網站獲取新聞
㈤ 獲取新聞的主要方法
1,通過專業新聞媒體獲取新聞,比如報紙,廣播電台,電視,以及新聞網站等。
2,通過社交媒體獲取新聞。比如微博,微信公眾號等。
3,通過政府發布的信息獲取新聞,比如瀏覽政府網站或參加會議等。
4,通過道聽途說獲取新聞。
㈥ 怎樣查詢過去特定日期的新聞
你要去有新聞收集的網,很多新聞網站都有,不過不是很全面,你可以根據日期選擇你查看的日子新聞。
㈦ 如何使用Java提取新聞網頁的新聞日期。有重賞。
爬蟲不行!!!你想啊,時間是別人查到資料庫中或者是靜態頁面直接寫進去的,別人不可能讓你從他資料庫中查詢,當然也不可能那麼有規律的編寫網頁,你只能對得到字元串進行處理而得到時間.
忘記說了,你會寫爬蟲說明你是了解爬蟲的原理的啊,不應該問出這樣的問題!!!
㈧ 查找特定時間的新聞怎麼查
呵呵,這個因為地方的影響力,可能網上沒有視頻或是相關的報道!
麻煩採納,謝謝!
㈨ 如何在網上篩選以前某一時段的新聞;以及如何所搜某一地區的新聞
在網路新聞下使用高級搜索http://news..com/advanced_news.html,鍵入限定條件就可以了;
google新聞沒有高級搜索功能,不過你可以通過網頁類的高級搜索http://www.google.com/advanced_search?hl=zh-CN
實現,會夾雜有非新聞類網頁內容.
㈩ 如何自動抓取網頁新聞內容
用前嗅的ForeSpider數據採集軟體,配置好新聞網站的模板之後,就可以一鍵採集了。軟體里有很多免費的採集模板,有很多新聞的模板,都是免費的。
可以設置自動定時採集,或間隔固定時間採集,更新時會自動排重,只採集更新後的內容。