2018/01/18
2018/01/11 pages-articles.xml 1G→4.1G 1,227,154 全ページの最新の記事本文を含むXML × pages-logging.xml 46M→433M 1,000,000 Wikipediaのページに対する操作ログ pages-meta-current.xml 1.2G→5.4G 1,621,574 pages-articles.xmlと 2014/08/14 2016/05/20 2017/04/22
enwiki-20170201-pages-articles-multistream xml bz2 13.5 GB 15.02.2017 0 0 Apress Csharp and XML Primer 1484225945 4 MB 27.02.2017 0 0 Miko Lee - Interview - [BTAW][BZ][HD] 2.1 GB 18.03.2017 0 0 XML DOM basics 0 2019/05/09 from gensim.models.keyedvectors import KeyedVectors model_path = 'enwiki-latest-pages-articles.xml.bz2' w2v_model = KeyedVectors.load_word2vec_format(model_path, binary=True) when I do this, I get 342 with utils.smart pages-articles.xml.bz2 and pages-articles-multistream.xml.bz2 both contain the same xml contents. So if you unpack either, you get the same data. But with multistream, it is possible to get an article from the archive withoutxml 2019/11/01
2014/09/20 2018/01/18 2012/02/25 2019/11/24 2014/12/31 そのため、このウィキペディアのダンプのサイズは約10 GBで、「enwiki-latest-pages-articles.xml.bz2」という名前が付けられています。ダンプを解凍するために、ターミナルで次のコマンドを試しました。 tar jxf enwiki-latest-pages-articles
2018/01/11 pages-articles.xml 1G→4.1G 1,227,154 全ページの最新の記事本文を含むXML × pages-logging.xml 46M→433M 1,000,000 Wikipediaのページに対する操作ログ pages-meta-current.xml 1.2G→5.4G 1,621,574 pages-articles.xmlと 2014/08/14 2016/05/20 2017/04/22