如何快速估计巨大 dataset 中unique 元素的数目

July 7, 2015

在大数据年代,很多简单的经典问题都会因为数据量巨大而变得十分具有挑战。绝大多数传统的精确算法将不再适用,因为对于TB量级的数据量,即使是O(N)的空间复杂度都会让内存不够使用;而当空间严重受限的情况下,传统算法的时间复杂度往往也会因此而暴涨。

[包子分享] [数据科学家] Netflix Prize 比赛学习算法综述

May 26, 2015

在大数据的潮流下,如何有效地提取数据中的含义变得尤其重要。为了鼓励大家找到更加好的推荐算法,Netflix Challange 比赛便产生了。包子在这里要分享的文章,是一篇关于历届获奖算法的总结。总的来说,作者提到了预处理数据的重要性,以及使用分解矩阵的方法来得到collaborative filtering 是十分有效的。

[包子分享] 构架模式: Microservices Architecture

April 28, 2015

微服务构架是近年来比较流行的服务端应用构架,由其非常好的可伸缩性,稳定性以及灵活的协同开发模式而著称于世。越来越多的公司都或多或少地开始采用微服构架,比如Netflix,Amazon, 等等。其实为服务并非什么新框架,它本质上是非常老的SOA 构架的一种实现方式。在本文中,包子将为大家简单讲解一下为服务的一些基本概念及优势,然后再分享一篇文章来阐述它的一些pitfalls, 希望同学们看完能有所收获。

[Hot Technology系列]从此之后再无Load Balancer--SmartStack(系统design question准备材料)

April 21, 2015

前几天组里用SmartStack替代几个web service的Load Balancer,感觉很好奇,这个是什么东东,还能干掉Load Balancer,于是看了这篇文章,决定跟大家分享一下。这篇文章是Airbnb博客里发表的,SmartStack是他们open source的一个project,瞬间对Airbnb更加膜拜啦。其实主要是接这个机会给介绍一下有关Load Balancer,SOA,分布式系统的知识,希望大家能有所收获。作为分布式系统必备的一个元件,任何系统design的面试中都会用到的,所以希望大家好好阅读,这个也是impress面试官的好机会。

[流行技术分享] Docker 印象

April 9, 2015

Docker横空出世后,很快就成为了一个非常流行的部署和运行分布式应用的平台。之所以Docker 能很快火起来,除了solomonstre 的市场营销外,它的确有很多独到之处。这次包子就跟您一起探讨下 Docker 技术,以及经常被一起提及的LXC 技术,希望大家能有所收获。

[mitbbs面经思路][Google] k largest elements

April 1, 2015

mitbbs google 最新算法题讲解,sliding window 中查找top K元素。

[包子分享]REST API Best practices: Where to put parameters?

March 24, 2015

在上一篇博客中,包子为您解说了REST 设计风格的理论概念,相信有很多同学读完以后会有很多实际的问题需要进一步探讨。在这里,包子为大家转载了一个比较热门的最佳设计实践问题:如何设计REST风格的URI?从上篇文章里,我们知道URI是HTTP实现下的REST 资源ID。URI一般包含了指向资源的路径,以及参数来指定请求获取的特定资源状态。那么到底什么应该是属于URI路径的一部分,而什么又该放入URI呢?这是一个值得大家思考的设计实践。

什么是 REST 风格

March 13, 2015

REST是REpresentational State Transfer 的缩写,那它究竟意味着什么呢?也许这个问题已经困惑你很久了,下面就由包子给你细细分解。

【讲座, CSSA】知乎红人湾区董老师带来创业 & 求职 & 大数据讲座

March 4, 2015

你想知道硅谷最火的创业公司吗?你想见见OFFER都长什么样?你想学习最热门的大数据技术吗?
CSSA 重磅推出 ­ 湾区董老师亲临西雅图 ­ Silicon Valley, Start­up and Big Data
包子IT面试培训(baozitraining.org)与CSSA为您请来了湾区的董飞董老师, 他曾在在知乎上发表关于技术,求 职的几个帖子,引起强烈反响,在硅谷创业协会,斯坦福大学,Berkeley做过多场讲座! 还等什么,快来参 加吧! 包子还会提供精美小礼品,先到先得哦!

CS面试高频22条,你能过关么?

Feb. 12, 2015

准备CS面试是一个非常累心的过程:算法又多又难,数据结构复杂多变,面向对象设计和系统设计根本没有正确答案,周边的关于计算机体系的基础知识浩如烟海,一般人无从下手。包子培训帮大家梳理了以下22条面试高频考点,大家不妨自己心里算算,看自己是否能顺利过关:)

[Google最新面试题] Continental divider

Feb. 10, 2015

Google最新面经,图论搜索相关,很有意思。

面向垃圾的Java垃圾回收器

Feb. 2, 2015

G1 "Garbage First" 垃圾回收器是 Sun 在2009年 JDK update 14 中首次提出,并在JDK 7 中向服务器端应用大力推广的一个垃圾回收器。G1回收器进化于CMS (Concurrent Mark Sweep) 回收器,不仅拥有CMS的并行分代回收的特点,更是具有空间整合和可预测停顿的优势。

面向对象设计的10条建议(包子分享)

Jan. 23, 2015

一个优秀的设计,虽然在最初的时候耗费了较多的时间,但是却极大地增加了系统的扩展性,可维护性甚至是性能。在需求变更迅速的时代,始终坚持一些比较好的OO设计原则可以极大地省下维护的成本。作者在本文中给出了10条 OO 设计的最佳实践。这些建议大多是经验之谈,希望能成为读者系统学习OO设计后的一个补充。此10条设计原则也不乏有偏激之处,望广大读者取其精华,弃其糟粕。

Airbnb面经—明星Startup系列

Nov. 14, 2014

Airbnb是当下全世界最火的starup之一,最新估值稳稳的迈过100亿美元大关。Airbnb模式已经开始颠覆”酒店/住宿“领域,简单说,尽管只是最近一两年才兴起,但在很多人看来(尤其是年轻人群),Airbnb将是他们将来最主要的旅行住宿方式:高性价比+原汁原味的当地人生活 > 传统的酒店体验。当然,最火的公司总是有难度的,所以小编抱着试一试的心态投了它家。回顾整个面试过程,由于当时手中握有其他几家的Offer,所以A家的流程走的相对比较顺畅,在此赞一个。

Hortonworks面经—明星Startup系列

Nov. 12, 2014

Hortonworks是由Yahoo和Benchmark Capital于2011年7月联合创建的一家企业管理软件公司。该公司专注于Apache Hadoop框架,主要产品是Hortonworks数据平台,一款开源的基于Apache Hadoop的数据分析系统。小编对大数据很感兴趣,当然不能轻易放过它。加上该公司雇佣了众多Hadoop项目的核心人员,产品平台包括各种的Apache Hadoop项目以及Hadoop分布式文件系统(HDFS)、MapReduce、Pig、Hive、HBase、Zookeeper和其他各种组件,团队技术能力毋庸置疑:有Hadoop的创始人,整个团队对软件框架开发和大数据处理有行业领先的经验,和他们工作可以学到很多有用的技术知识。

Page 1 of 3
1
2
3